1

关于数据质量管理,可能与大部分人没有太大的关系。虽然,市面上有很多的公司在进行数据的挖掘、分析方面业务的工作,但是关于数据质量管理方面的公司真的是屈指可数。

由于本人所在的公司主要是为了解决发改委遇到的一些问题,而开展的1个项目。比如检验地市注册资金是否存在异常这么1个简单的例子。

而对于数据感知技术,大部分没有了解过。为了说明,大数据时代下,数据感知在数据质量管理系统中的应用,这里我们需要先解决几个问题:

什么是数据质量管理系统?

什么是数据感知技术?

数据感知技术的用途?

下面我们分别来进行介绍。

什么是数据质量管理系统

我们知道,数据是企业数据中心的重要资产,获取并维护高质量的数据,对业务及运营至关重要。而数据量越大,有价值的信息获取的难度就越大。如果获取不到有用的信息,就不能很好的进行数据挖掘和数据分析。

但是在这个过程中,有许多因素会导致这些数据资产贬值,比如数据的冗余和重复会导致信息的不可识别、不可信及精确度不够等情况的发生。

而数据质量管理系统就是对数据进行处理后能够提供高质量的数据,最终的目的是挖掘数据价值,推动业务发展,实现盈利。

而数据质量管理系统主要由如下一些部分组成:

数据清洗与去重

数据可视化

数据评估

数据治理

数据挖掘

数据分析

而当前系统主要采用纯Python来实现。对于发改委动不动就千万级别的数据还是可以很好的进行驾驭的。

什么是数据感知技术

对于感知的定义是客观事件通过感觉器官在人脑中的直接反映。而所谓数据感知,就是通过对数据的一些特征信息来对数据进行描述。比如,我们看到远处有1个人,长头发穿着红色衣服高跟鞋,那么我们就可以推测那个人是女的。当然,这个过程也可能会出现不准确的问题,比如那个人是个男的,就这样打扮。

而数据感知技术可以实现给我们1组样本数据,我们可以知道它是哪种类型。比如,给我们如下的100条记录1组数据:

2

通过我们的感知技术我们可以识别它为手机号码和电话号码,其中手机占据的比例假设为60.82%,而电话号码占据的比例为32.22%,而剩下还有6.96%的数据无法被识别出来,因此我们可以推断当前数据为联系方式为主。

需要注意的是,这100条记录需要满足随机性,不然感知出来的结果可能会差强人意。

当然,这是比较简单的1个例子。当然我们还可以识别中文姓名、地址信息、企业名称、工商注册范围、工商注册资金等类型,这里就涉及到概率论及统计学的一些内容了。

当然,还会涉及到一些线性代数的内容,比如贝叶斯网络转移矩阵的使用,会用到矩阵的相关知识。

数据感知技术的用途

一般情况下,数据质量管理系统都是基于规则库进行开展工作的,而对每组数据进行规则的配置是1个繁琐且耗时的工作,基本上没有人愿意进行这种工作。

而此时,通过数据感知技术,我们可以自动的感知规则,并为每组数据推荐最适合的规则,从而简化人员的工作量,提高效率。

另外通过数据感知技术,还可以找到数据库其他类似的类型的数据,进行数据关联性的关联,弥补一些认知上的缺陷。

总结

实际上,数据感知只是数据质量管理中的1个很小的环节,通过这种自动化的技术,可以节省人工的成本及提高效率。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>