如果你问企业“ETL工具重要吗?”我想答案一定是肯定的;如果你问企业“一定要选用商用ETL工具吗?”,这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据仓库,虽然开发人员的学习曲线很高,但它提供了许多好处,比如分布式处理、可维护性、基于UI而不是脚本等。

 

耦合对编程而言是一个旧概念,但在涉及数据处理方式时仍然是一个相对较新的概念。众所周知,ETL流紧密耦合,但现在的数据流管道是松散耦合的,这种方法也有缺点,例如用暗数据创建数据沼泽。

标准化转换仍然可以遵循ETL过程,但对于像数据自助服务这样的全新概念,不能使用旧的流程和实践。数据质量、数据安全性、元数据管理和数据治理等标准ETL流程仍然与数据驱动相关。

数据湖的影响

大数据的到来对ETL的整体流程造成了影响,ETL必须转型并开始支持大数据生态系统技术,以下是ETL受到大数据影响的具体方式:

1、ETL仍然与使用的DW环境相关。目前,DW和数据湖通过扩展和改进架构相互补充,可能未来也是如此,因为所有新的用例都是使用数据湖构建的。

2、与使用ETL工具/引擎进行处理并将RDBMS作为存储来实现标准转换相比,使用数据湖处理和存储数据提供了单一平台,易于使用且更便宜。

3、数据湖扩展了仅来自标准化ETL的分析,因为数据湖可以实现首次获取,然后是数据准备,这是面向自助服务和ad-hoc的,这在ETL中是不可用的。

4、数据湖被用作数据登陆/归档,甚至RDBMS也无法作为存储解决方案处理。因此,需要重新思考如何实施ETL工具。

5、ETL并不适合在非结构化环境中使用,但是大数据流程可以存储半结构化和非结构化数据,这使得ETL必须向这些方向转换。

随着大数据而出现的新的体系结构和技术都在逐渐削弱传统ETL的作用,ETL工具需要支持新的技术才会有价值,需要向Hadoop和其他开放式架构转变,这也意味着传统ETL供应商的作用在减少。

重塑ETL,需要注意哪些事情:

1、与开源工具的结合程度

用于数据处理和存储的专有技术正在失去与ETL工具的相关性,ETL供应商应该能够支持所有开源项目,比如Spark、MR以及HDFS等。

2.以云为中心

ETL工具应该支持具有内部部署版本的云原生架构,有一些新的云原生ETL工具,如Snaplogic,Informatica Cloud和Talend Integration Cloud,它们提供了一个集成平台即服务(iPaaS),可以解决基础架构方面的许多挑战,但仍有一些ETL功能方面的限制。与新兴工具相比,这些ETL工具并非自助服务,未来应该更多地关注自助服务和机器学习,可以尽量让这些工具实现 ad-hoc和自我训练。

3.为融合数据做准备

ETL是一个以开发人员为中心的数据转换工具,而融合数据准备则是以自助服务为重点的数据转换工具。随着越来越多得开发人员使用数据湖进行分析,无论是临时流程还是标准流程,ETL都开始变得无关紧要,因为自助服务将变得更加普遍,两者合并为创建单一数据转换类别工具,这样的工具可用于任何标准和临时转换。

4. AI / ML

AI / ML是一个推动者,它通过自动化流程帮助数据工程师和开发人员轻松快速完成工作。在AI算法和数据工作者之间创建一个沟通桥梁, 一旦建议被开发者接受,AI就会开始学习,并根据建议调整分类和转换。

因此,AI将继续影响数据架构的许多部分,包括数据分类、数据建模、数据存储等自学习算法,ETL工具需要支持AI解决方案——部分供应商已经开始提供AI功能但离被用作标准解决方案还差得远。

5.自助设计能力

ETL工具应该通过增强现有工具并为此类设计提供新工具,支持创建新的基于自助服务的设计/流程,这将有助于为企业创建新的基于自助服务的用例。

6.实时支持

通过开源技术提供实时支持,并对现有工具的体系结构或为此目的创建新工具,实时让该工具为大数据的所有用例提供支持。

7.大数据质量

仍然没有可以提高大数据质量的ETL工具。很少有人能够描述清楚大数据流程,也没有基于规则的引擎来支持这种执行。 ETL供应商应该专注于这个关键领域,以便能够与Hadoop上基于平台的新工具竞争。

8.匹配和合并大数据支持

在MDM和ETL的灰色区域中 - 需要提供对数据湖中获取数据的支持。这也是一个关键领域,通过使用ML技术,这可以由供应商轻松提供。

9.统一元数据目录支持

大数据时代,企业需要访问其所有数据目录。由于ETL工具已经是元数据的存储库,因此它们能够支持这样的要求,该功能需要自动填充目录,自动对数据进行分类/标记,并启用搜索功能和群组/专家评级。

10.以可重用性为中心的数据湖设计

ETL工具应该通过设计为可重用组件提供支持,这个需求已经出现很久了,是时候重视起来了。

结论

由于大数据时代的到来,企业对数据的掌握更加重视,都希望以更低的成本获得更好的见解,ETL工具需要根据新的需求进行改造,供应商可能会逐渐淡出ETL世界,但还是可以将ETL作为数据转换活动的基础工具提供。 在国外,类似于Talend、Informatica等ETL供应商已经认识到了这些挑战,并创建了专门针对大数据和云计算的新产品。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-07-18 10:52:17
大数据资讯 四川力争2020年建成全省统一的审计大数据中心
日前,四川省出台的《四川省2018-2020年审计信息化发展三年工作规划》明确,该省将在2020年基本建成全省各有关部门、金融机构和国有企事业单位履行职责相关的电子数据资源 <详情>
2018-07-18 10:42:05
大数据技术 面对暴雨下的城市内涝,AI能做些什么
在每一场可能导致“巴士变大船”的暴雨中,智慧水务首先要能够感知情况,其次,把这些观察与需求和动态反应模型相结合,最后,使用得到的预测结果来校正系统以符合人们的需 <详情>
2018-07-18 09:25:19
大数据资讯 大数据时代十大热门IT岗位
人类一直对机器人和人工智能(AI)的概念保持非常强的好奇心。好莱坞电影和科幻小说可能激发了一些科学家开始朝着这个方向努力,虽然人工智能泡沫已出现多次,但目前重大的发 <详情>
2018-07-17 09:22:00
运营商 中国联通成电信大数据项目唯一采购来源 他俩啥时候好上了?
7月11日,中国电信云公司发布了2018年联通大数据风险防控类产品采购项目单一来源公告。意想不到的是,中国联通却成为此次的唯一供货方,中国联通旗下的联通大数据提供项目 <详情>
2018-07-17 09:05:00
人物访谈 章玉珍:开启数据大门,创造价值最大化
随着大数据、云计算、人工智能的不断发展,人们的消费体验正发生着潜移默化的改变,企业也正由“市场称王”慢慢转化为“数据称王”,谁拥有更多的数据,谁就能创造更多的价 <详情>