中国IDC圈1月25日报道:为了利用大数据做出更为智能的商业决策,很多公司都采用了Hadoop等开源的技术。但是,仅仅凭借是无法建好数据湖的。事实上,如果不遵守一些规则,在Hadoop上花费的时间的投资就会变成巨大的浪费。本文将对这些规则进行解释:

由始至终地管理

试想若企业中有这么一个平台,可以持续获取、储存并读取交易数据及其他复合型数据(这些复合型数据可能是web日志、传感器数据或其他机对机传输数据),并在大规模模拟研究之前持续剖析、修订数据,那么这个平台的出现就可以加快企业获取业务洞察的速度。

这一企业活动的枢纽能够储存并读取任何类型的数据,并将数据用于快速探索——这个枢纽就叫数据湖。它最早是依托Hadoop建立起来的,因为Hadoop具有高效提升数据量、支持更快速的数据传输并吸收各种类型数据的能力。

Teradata旗下一家名为Think Big的公司曾为多个组织机构定义、实施并管理数据湖,他们打造了业内最成功的案例。遵循本文中列出的行为规范,企业便能高效实施数据湖方案,彻底省去返工和检索的时间。

1、着眼高远,行动机敏

为了保证大数据战略的成功,制订正确的战略和数据架构十分重要。一个数据战略的完成并不需要耗时数月甚至数年。事实上,只需短短六周,Think Big就能帮助企业找到重点考虑的使用场景、确定初始数据架构、查清企业的准备情况并决定好采取何种构建方案。

但如果无法及时获得所有数据所有者的同意,共同实施某一数据战略,Think Big就会转向提供价格固定的试用服务。这种服务能够迅速地构建出两至三条调度良好的数据流,快速体现出业务价值,并且无需牺牲现有的数据架构和路线图。

这使得卓有成效的数据管理流程得以建立,并保证了流入数据湖的信息优质可溯。这些流程可以作为一个基础,方便其他数据管理员进一步扩大解决方案的应用规模。

2、整合数据管理

西方有句著名的俗语:“garbage in, garbage out”,说的就是无效输入会导致无效输出。在数据湖里,这句话也是同样成立的,有些企业的数据湖就不幸地变成了垃圾场。认为不经考虑、未加管理、毫无条理的数据网能够对分析有所帮助,这种观点是非常错误并且成本巨大的。要获得具体的商业价值,就必须深思熟虑,思考数据被消费、移动、标记、转换、管理、访问并安全储存的方式。

在把信息导入系统之前,必须建立起数据质量的管理流程及元数据管理系统。质量的提升开始于从源头上追溯数据及元数据。例如可以越过范式导入操作性数据和业务安全数据,保证恰当的管理。

为了实现恰当的管理,还应该持续地捕获元数据,这是因为企业在数据湖中要用到数据剖析、屏蔽、建模、归档的技术。不管是谁、在任何时间、通过何种方式使用了系统中的信息,每一个访问点都要被记录下来并持续追踪。

3、努力创造可度量的商业价值

在过去的数十年间,IT部门的预算大多都花在了监控并维护技术系统上,用于促进创新的投资微乎其微。尽管未来的几年里,人们预测IT部门预算会稍有增加,在新技术实验上的经费依然不足。

出于这种考虑,IT部门定下目标来展示出可以测量的商业价值就非常重要。推进基于Hadoop的数据湖项目时,应该遵循以下几个最佳建议:

•把握商业赞助。寻找一到多个知名的行业领袖进行赞助•致力于清晰的目标。跟客户一起设定对数据湖的期望、要求及其成效的度量标准。除了确定项目业绩的衡量之外,还应明确每个小组的职责范围。•定期报告。应按照预先确定的时间间隔,或每隔60天到90天向赞助商及管理人员汇报成果。

当公司致力于满足赞助商的要求、达成预先设定的目标,IT部门也能及时提供成果及汇报时,数据湖项目的实施对于公司整体和IT部门的重要性就会凸显出来。出于其重要性,项目的进展也会更加顺利。

保持发展动力

造成数据湖战略失败的原因有很多很多。如果数据管理、元数据获取、管理、安全等方面存在问题,或是未能正确围绕一个业务中心正确开展,数据湖就会变成一个毫无用处的数据沼泽,白白浪费几百万的投资。

在决定投资一个耗资百万的项目时,企业不应该怀有侥幸心理,而是应该按照“着眼高远,行动机敏”的准则,坚持一体化数据管理操作,定期按照商业价值进行汇报。这么一来数据才能源源不断地流入组织架构中,帮助企业不断壮大,让企业在未来很长的一段时间中不断获益。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>