对企业的IT部门来说,提升和维护数据的质量是一个永恒的挑战。与此同时,数据的爆发式增长使这一任务变得越来越困难。此外,企业越来越依赖数据来获取新的见解并为决策提供合理的建议。数据质量,已成为IT部门的一个重要战场。

大数据3

但对于很多IT部门来说,对数据质量的改进往往是被动性的,就像是救火:在数据质量问题出现后,我们才进行响应,从一个危机跳到另一个危机。往往是大的问题最受关注。如果没有一个积极的数据质量过程,数据问题就会开始增加。所以我们应制定主动数据质量改进计划,其目标是在数据质量问题成为问题之前识别它们。  

数据是任何企业的资产之一,其中的区别在于负责确保整个企业数据质量的团队的规模。很大一部分数据不是闲置的,它们会进入多个不同的数据存储系统。不正确的数据值就像是病毒:一旦出现,它可能就会传播到整个组织的数据报告和其他数据存储中。  

这里有一些建议可以帮助您开始构建一个主动的数据质量改进计划,当然这些建议并不是绝对的,但会帮助你开始思考这个过程。该计划的目标是确保企业数据的准确性和一致性。  

建立一个数据质量理念体系  

像所有的组织计划一样,创建一个数据质量改进的理念体系,需要从组织结构的顶部开始,让高层管理人员参与进来至关重要。需要确定负责数据质量的团队成员,并向IT人员和业务部门宣传数据质量改进计划的好处,其目标是将数据质量集成到组织结构中。  

合适的人掌握合适的技能  

数据质量专家很难找到,而且成本可能很高,但这并不妨碍你“自我成长”。在公司里找一些对此有兴趣的人员,并为他们提供学习数据质量科学的时间和相关培训。您可以根据预算限制和您所拥有的人力资源来构建相应的项目。  

没钱没工具?没有关系  

没有足够的预算来购买主数据管理(MDM)产品或数据质量工具?这当然是个很大的挑战,但不能成为借口。笔者回顾了几家初创公司的数据质量项目,几乎可以称作是文档、流程、程序库和开源产品的大杂烩。如果组织需要,您也可以通过使用一些开源的MDM和数据质量工具,如Talend、Pimcore和OS DQ等等,创建一个强大的、主动的数据质量改进计划。  

数据质量始于产生和获取  

为了开发高质量的数据集,您必须在产生或从外部数据源获取数据时遵循最佳实践方法。与信息使用者沟通,确定他们如何使用数据,并确定治理数据的业务策略。然后,您可以开发一个标准,并构建数据定义规则来保证一致性。   大多数数据库提供一组约束来强制执行数据一致性。对于以编程方式执行数据一致性的非数据库平台,建议研究其他一些存储公共代码、数据质量规则和最佳实践的机制。   强烈建议各种规模的组织认真评估MDM产品套件。MDM平台的流程框架和工具将成为数据质量程序的基础,帮助您更快地建立和实施企业范围内的单一事实来源。

维持数据质量  

执行前瞻性的数据质量检查,将成为改进计划的核心部分。

其过程应该是(1)识别、(2)优先级、(3)评估、(4)纠正,即:识别数据和主体,对数据的重要性进行优先级排序,评估最重要的数据资产,纠正不准确的数据值。   当您识别出不正确的数据值时,您的目标应该是确定可能造成的影响的严重程度和影响范围,并确定问题的根源。然后采取必要的步骤来修复不正确的数据值,并解决产生问题的根本原因。   目前市面上有许多数据质量产品可以帮助您进行分析,建议在选型之前结合权威机构的调查报告了解每家提供商的优劣。   构建具有前瞻性数据质量计划,永远都不算晚。如果计划合理且完善,就能很大程度上减少数据质量问题,更好地保护和使用企业的数据资产。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-22 09:44:25
国内资讯 信通院余晓晖:我国存储总量达到1080EB
余晓晖表示,结合算力、存力、运力发展特点和重点影响因素,在2022年的基础上,中国信通院进一步完善综合算力发展体系,构建了中国综合算力指数体系2.0。 <详情>
2023-07-20 09:07:15
国内资讯 倪光南:大力发展数据存储产业,掌握竞争主动权
倪光南总结到,鉴于存储在现代科技中的重要地位,我国应抓住中国存储业面临的重大机遇和挑战,实现科技自立自强,高质量发展,为科技强国建设和掌握数字经济竞争主动权提供 <详情>
2023-06-27 10:38:24
国内资讯 倪光南院士:必须高度重视数据存储产业发展,加强顶层设计和战略布局
随着5G网络、人工智能、自动驾驶、云计算、工业互联网等新兴产业的快速发展,数据已成为数字经济时代的核心生产要素。 <详情>
2023-01-16 11:09:03
国内资讯 算网融合下,数据存力发展探讨
业界普遍认为,数据存力与算力同等重要,是数字经济稳定发展的基石,而建设强大的数据基础设施则是提升数据存力水平的关键所在。 <详情>
2023-01-13 13:28:54
交换存储 企业如何“数矩觉醒”?联想凌拓以创新构建数智未来
随着越来越多应用部署上云,用户对云端存储服务的性能、可靠性、企业级数据管理能力的需求也越来越强烈。 <详情>