对企业的IT部门来说,提升和维护数据的质量是一个永恒的挑战。与此同时,数据的爆发式增长使这一任务变得越来越困难。此外,企业越来越依赖数据来获取新的见解并为决策提供合理的建议。数据质量,已成为IT部门的一个重要战场。

大数据3

但对于很多IT部门来说,对数据质量的改进往往是被动性的,就像是救火:在数据质量问题出现后,我们才进行响应,从一个危机跳到另一个危机。往往是最大的问题最受关注。如果没有一个积极的数据质量过程,数据问题就会开始增加。所以我们应制定主动数据质量改进计划,其目标是在数据质量问题成为问题之前识别它们。  

数据是任何企业的资产之一,其中的区别在于负责确保整个企业数据质量的团队的规模。很大一部分数据不是闲置的,它们会进入多个不同的数据存储系统。不正确的数据值就像是病毒:一旦出现,它可能就会传播到整个组织的数据报告和其他数据存储中。  

这里有一些建议可以帮助您开始构建一个主动的数据质量改进计划,当然这些建议并不是绝对的,但会帮助你开始思考这个过程。该计划的目标是确保企业数据的准确性和一致性。  

建立一个数据质量理念体系  

像所有的组织计划一样,创建一个数据质量改进的理念体系,需要从组织结构的顶部开始,让高层管理人员参与进来至关重要。需要确定负责数据质量的团队成员,并向IT人员和业务部门宣传数据质量改进计划的好处,其目标是将数据质量集成到组织结构中。  

合适的人掌握合适的技能  

数据质量专家很难找到,而且成本可能很高,但这并不妨碍你“自我成长”。在公司里找一些对此有兴趣的人员,并为他们提供学习数据质量科学的时间和相关培训。您可以根据预算限制和您所拥有的人力资源来构建相应的项目。  

没钱没工具?没有关系  

没有足够的预算来购买主数据管理(MDM)产品或数据质量工具?这当然是个很大的挑战,但不能成为借口。笔者回顾了几家初创公司的数据质量项目,几乎可以称作是文档、流程、程序库和开源产品的大杂烩。如果组织需要,您也可以通过使用一些开源的MDM和数据质量工具,如Talend、Pimcore和OS DQ等等,创建一个强大的、主动的数据质量改进计划。  

数据质量始于产生和获取  

为了开发高质量的数据集,您必须在产生或从外部数据源获取数据时遵循最佳实践方法。与信息使用者沟通,确定他们如何使用数据,并确定治理数据的业务策略。然后,您可以开发一个标准,并构建数据定义规则来保证一致性。   大多数数据库提供一组约束来强制执行数据一致性。对于以编程方式执行数据一致性的非数据库平台,建议研究其他一些存储公共代码、数据质量规则和最佳实践的机制。   强烈建议各种规模的组织认真评估MDM产品套件。MDM平台的流程框架和工具将成为数据质量程序的基础,帮助您更快地建立和实施企业范围内的单一事实来源。

维持数据质量  

执行前瞻性的数据质量检查,将成为改进计划的核心部分。

其过程应该是(1)识别、(2)优先级、(3)评估、(4)纠正,即:识别数据和主体,对数据的重要性进行优先级排序,评估最重要的数据资产,纠正不准确的数据值。   当您识别出不正确的数据值时,您的目标应该是确定可能造成的影响的严重程度和影响范围,并确定问题的根源。然后采取必要的步骤来修复不正确的数据值,并解决产生问题的根本原因。   目前市面上有许多数据质量产品可以帮助您进行分析,建议在选型之前结合权威机构的调查报告了解每家提供商的优劣。   构建具有前瞻性数据质量计划,永远都不算晚。如果计划合理且完善,就能很大程度上减少数据质量问题,更好地保护和使用企业的数据资产。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-01-17 13:41:24
运维管理 数据中心在油气数据处理和存储中发挥关键作用!
随着油气行业产生的数据量显著增加,数据管理已成为油气行业的一个重要主题,从而推动了高性能数据存储和处理解决方案的需求。 <详情>
2020-01-16 14:09:22
互联网 2020年存储行业趋势预测
显而易见,对于企业和个人而言,数据在以前所未有的速度激增。国际数据公司(IDC)的最新研究显示,2019年生成的数据为41ZB,而到2025年将激增至75ZB。 <详情>
2019-12-17 12:28:00
大数据应用 降低存储功耗,瑞驰提出的“按访问量耗能”概念如何理解?
大数据的发展是非常迅速的,从2013年一直到2018年整个数据的发展,每年都是以至少30%甚至90%的速度飞速增长,2018年已经达到了33ZB的生长水平,预计在2020年和2025年,全球 <详情>
2019-12-10 17:59:00
大数据资讯 存储专家谢长生:数据长期存储面临的四大挑战与两大有效对策
很多人对数据存储的时间考虑的比较短,能有五年就不错了。我今天要讲的是一个长期存储的问题。长期存储提出了什么样的挑战? <详情>
2019-10-28 12:46:47
大数据技术 数据存储五大趋势:加速技术和数字主权时代到来
IDC中国副总裁兼首席分析师武连峰根据IDC数据分享了最新的存储发展趋势。为用户和企业发展和利用存储提供一个重要的参考。 <详情>