数据管理需要对数据以及相应的数据定义或元数据进行适当的管理。它旨在确保(元)数据质量良好,因此是有效和高效管理决策的关键资源。数据质量(DQ)通常被定义为“适合使用”,这意味着该概念的相对性质。

在另一个决策环境中,即使是同一个业务用户,原来其质量可接受的数据可能被认为质量较差。例如,分析性销售预测任务的数据可能不能满足会计任务数据的要求。

数据质量决定了数据对业务的内在价值。信息技术只是这个内在价值的放大镜。因此,高质量的数据与有效的技术相结合是一项巨大的资产,但低质量的数据与有效的技术相结合也是一项巨大的责任。这有时也被称为GIGO或“无用输入,无用输出”原理,即使采用了好的技术,也会导致获得错误数据的结果。

基于无用数据做出的决策可以会让企业损失数十亿美元。而一个简单的例子是企业的客户地址。据估计,约有10%的客户每年更换他们的地址。而过时或错误的客户地址可能对邮购公司、包裹快递提供商或政府服务产生重大影响。

糟糕的数据质量(DQ)会以多种方式影响组织。在运营层面上,它会影响客户满意度,增加运营支出,并会导致员工工作满意度下降。同样,在战略层面,它会影响决策过程的质量。数据库规模呈指数级增长,数据质量(DQ)问题的严重程度不断加剧。这将使数据质量管理成为当今数据经济中最重要的商业挑战之一。

组织正在获得各种与数据管理相关的工作概况,以确保高数据质量并将数据转化为实际业务价值。以下将介绍信息架构师、数据库设计师、数据所有者、数据管理员、数据库管理员和数据科学家的工作和内容。而根据数据库和企业的规模,可能会将多个配置文件合并到一个工作描述中。

(1)信息架构师(也称为信息分析师)。信息架构师负责设计概念数据模型,并与业务用户进行沟通和对话。其弥合了业务流程和IT环境之间的鸿沟,并与可能有助于选择概念数据模型类型(例如EER或UML)和数据库建模工具的数据库设计师密切合作。在数据准确性和数据完整性方面,一个良好的概念数据模型是存储高质量数据的关键要求。

(2)数据库设计师。其职责是将概念数据模型转换为逻辑和内部数据模型,协助应用程序开发人员定义外部数据模型的视图,从而有助于数据安全。为了便于将来对数据库应用程序进行维护,数据库设计人员在创建强制实现数据一致性的各种数据模型时,应定义公司范围的统一命名约定。

组织中每个数据库中的每个数据字段都应由数据所有者拥有,数据所有者有权决定是否访问和使用数据。数据所有者可能是数据的原始生产者,其消费者之一或第三方。数据所有者应该能够填写或更新其值,这意味着数据所有者知道该字段的含义,并可以访问当前的正确值(例如通过联系客户、查看文件等)。数据管理员可以要求数据所有者检查或完成某个字段的值,以纠正数据质量问题。

(3)数据管理员。数据管理员是数据质量(DQ)专家,负责确保实际业务数据和相应元数据的质量。他们通过执行广泛和定期的数据质量检查来评估数据质量(DQ)。除其他评估步骤外,这些检查涉及应用或计算最相关的数据质量(DQ)维度的数据质量指标和指标。

显然,他们也需要主动采取行动,并进一步处理这些评估的结果。第一类应采取的措施是采取纠正措施。但是,数据管理员不负责自行更正数据,因为这通常是数据所有者的责任。对数据质量评估结果采取的第二种行动涉及深入调查所发现数据质量问题的根本原因。

了解这些原因可能允许设计旨在消除数据质量问题的预防措施。预防措施可能包括修改数据来源的操作信息系统(例如,使字段成为强制性的,提供可能值的下拉列表,使界面合理化等)。

此外,系统中输入的值可能会立即根据预定义的完整性规则进行有效性检查,并且如果违反这些规则,可能会要求用户更正数据。例如,企业税务门户可能会要求员工根据其社会安全号码进行识别,可以通过联系社会安全号码数据库实时检查。显然,实施这些预防措施需要负责应用程序的IT部门主管的密切参与。

总体而言,防止错误数据进入系统通常比事后纠正错误更具成本效益。但是,由于输入数据中存在不必要的数据质量问题,因此应注意不要减慢关键流程。

(4)数据库管理员(DBA)。其职责是负责实施和监视数据库。其工作内容包括:安装和升级DBMS软件、备份和恢复管理、性能调整和监控、内存管理、复制管理、安全性和授权等。数据库管理员(DBA)与网络和系统管理员密切合作。

其还与数据库设计人员进行交流,以降低运营管理成本,并保证达成一致的服务水平(例如响应时间和吞吐率)。数据库管理员(DBA)可以提供数据可用性和可访问性,以及其他两个关键数据质量维度。

(5)数据科学家。数据科学家在数据管理的背景下是一个相对较新的职位。其负责使用最先进的分析技术分析数据,以提供新的见解,例如客户行为。数据科学家具有将ICT技能(如编程)与定量建模(例如统计)、业务理解、沟通和创造力相结合的多学科特征。

一位优秀的数据科学家应该拥有Java、R、Python、SAS等语言的良好编程能力。编程语言本身并不重要,只要数据科学家熟悉编程的基本概念,并知道如何使用这些来自动执行重复任务或执行特定例程即可。

显然,数据科学家应该有统计学、机器学习和/或定量建模方面的全面背景。从本质上讲,数据科学是一项技术练习。分析模型和商业用户之间往往存在巨大差距。为弥合这一差距,沟通和可视化设施是关键。数据科学家应该知道如何通过使用交通信号灯方法,OLAP(在线分析处理)设施,如果当时的业务规则等以用户友好的方式表示分析模型、附带的统计数据和报告。

数据科学家至少需要两个层面的创造力:在技??术层面上,重要的是在数据选择、数据转换和清理方面进行创新。在分析层面上,标准分析过程的步骤必须适应每个特定的应用,而“正确的猜测”往往可以产生很大的差异。分析是一个快速发展的领域。

新的问题、技术和相应的挑战不断涌现。数据科学家必须跟上这些新的发展和技术发展的步伐,并且有足够的创造力来看待他们如何能够创造新的商业机会。这些数据科学家在当今的就业市场很难获得,这并不奇怪。然而,数据科学家有助于提供新的数据和/或见解,这可以让企业利用新的战略商业机会。

总而言之,确保高质量的数据是综合各种技能的多学科练习。在此从数据质量的角度回顾了以下数据管理作业配置文件:信息架构师、数据库设计师、数据所有者、数据管理员、数据库管理员、数据科学家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>