数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出

数据统一

一般而言,企业实现数统一有两种方法,提取转换加载(ETL)和主数据管理(MDM)。

提取转换加载(ETL)具有灵活性的优势,适合不同的数据来源,使程序员可以手工编写转换程序,能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低,提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理(MDM),它与ETL类似的地方在于,预设一个“主记录”,每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是,MOM不是使用手动的定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。

可难解的是,在数据量过大的情况下,不管是ETL还是MDM,都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题,提出数据统一的七条原则。

一、所有的可规模化系统,都必须自动进行绝大多数的操作。 

二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

三、需要进行具体的域操作时,只有协作性的系统才可实现规模化。

四、为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。


【本文由中国IDC圈原创,转载需注明出处】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-24 16:21:21
大数据应用 基于电商平台的数据分析基本指标体系
电商行业是当前市场十分火热的行业,也是对数据分析师需求很大的行业,这篇文章可以帮助没有电商行业经验的同学快速了解电商数据分析的指标和框架。 <详情>
2019-07-03 17:06:39
大数据技术 人力资源管理需要结合大数据和直觉
一些大数据专家对数据分析软件的洞察力如何与人力资源管理者的智慧相结合进行了探讨。那么在企业经营业务时,将会更信任什么:大数据还是自己的直觉? <详情>
2019-06-21 16:48:55
运营商 三大运营商五月份运营数据分析:中国移动“满血复活”
随着昨日中国电信发布5月份的运营数据,三大运营商上月的运营数据尽数出炉。 <详情>
2019-06-21 10:43:07
大数据技术 谢邦昌:大数据、人工智能的未来已来
随着互联网+、人工智能、大数据、云计算等新技术不断涌现与成熟,大数据产业与各行业深度融合并引发各种变革的趋势愈发明显。其中,大数据一词更是在去年各种年度重要会议 <详情>
2019-06-19 14:22:09
云资讯 亚洲廉价航空之王利用技术提高利润
亚洲的航空公司正在激烈地争夺着这个大洲里不断扩大的中产阶级,廉价航班先锋亚航(AirAsia)正在利用技术来寻找新航线、对冲不断增加的燃油成本并为乘客提供更多服务。 <详情>