“数据目录”这一概念其实并不新鲜,早在大型机时代,企业就开始通过数据目录跟踪、管理其数据资产。数据目录保存的是与数据有关的数据,或称之为元数据。一个企业的数据目录需要记录遍及整个公司的所有数据库和文件,并为其添加描述,例如,如果有可能的话,对文件与文件之间的关系进行记录。

数据目录允许业务用户快速找到他们所需的信息源——无论是资产数据、公司的地理位置,还是产品和供应商的信息。但是,数据目录只有在保持最新的情况下才能保证有效——而在一个快速变化的行业中,这可能很难做到。

元数据和数据目录

理解元数据的一个简单方法是用电影来类比。电影存储在广播公司的电影库中,但是您需要保存的不仅仅是电影的标题。重要的是要知道这部电影的时长是多少、里面有哪些演员、谁是导演、谁是编剧、以及关于剧本的信息,所有这些都是关于电影的元数据。

想必大家对数据目录、数据字典和业务术语表等概念也已经大概了解了。业务术语表针对的是业务用户,而数据词典针对的是更懂技术的受众,两者之间存在着细微的差别。不过这三个概念都明显与元数据有关——而且它们都面临着类似的挑战。

企业数据目录的挑战

早期的数据目录主要关注技术数据,比如数据库中有多少字段、字段是基于数字还是基于字符、字段有多长以及它是否有一个有效值范围。后来,该定义被扩展为包括关于业务数据类型的信息,甚至包括该数据的定义,例如什么是“客户”、“产品”或“资产”。

其中有一个关键问题在于,企业数据目录可能会过时。通常情况下,热心的员工会输入关于各种系统和数据库内容的信息,但是却没有什么动力来时刻保证这些信息都是最新的。当新系统部署完成、整个公司被收购且它们的系统被添加到企业投资组合中,或者进行重组时,那些费力输入的描述性元数据会变得过时,以至于不再受信任,然后就不用了。

虽然许多公司花了很多精力来实现有效的目录,但是随着业务的快速变化,很少有公司会持续努力保持企业数据目录完全同步。因此,尽管今年来有几家软件供应商提供了数据目录、数据字典和业务术语表等产品服务,但并未得到真正意义上的广泛普及。

1767746

AI和企业数据目录

在数据量和数据种类不断增加的时代,让企业数据目录保持最新,已经变得越来越困难。但是,人工智能等技术的应用,获取可以对此状况有所改变。

机器学习应用程序可以筛选企业数据目录和文件系统,自动收集元数据标记,整个过程类似于谷歌在互联网上搜索网站并进行编目和索引的方式。将此技术应用于数据目录,可以帮助企业实现自动填充和更新——不需要人工干预。这可以解决阻碍企业数据目录的关键问题:需要人工做许多繁复的工作。可以预见,人工智能很可能将帮助数据目录市场蓬勃发展。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-08 10:32:11
市场情报 亚马逊云科技针对人工智能/机器学习工作负载推出多项存储新服务及功能
存储服务的新功能重点包括为支持人工智能/机器学习、大数据分析等数据密集型工作负载进一步提升Amazon Elastic File System(Amazon EFS)读取和写入性能,以及Amazon Elas <详情>
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-07-24 16:26:35
市场情报 亚马逊云科技人工智能与机器学习技术助力科学家绘制完整的脑部地图
艾伦研究所数据和技术主管Shoaib Mufti带领团队与亚马逊云科技合作,将利用这张脑图创建全球大的脑细胞开源数据库。这是人类首次对关于哺乳动物大脑结构和功能的大规模数据 <详情>
2023-07-14 17:09:54
国内资讯 上海统筹布局长三角公共算力中心
到2023年底,上海将依托上海市人工智能公共算力服务平台,接入并调度4个以上算力基础设施。 <详情>
2023-07-14 13:56:00
互联网 8月起施行!国家网信办等七部门发布《生成式人工智能服务管理暂行办法》
《办法》规定了安全评估、算法备案、投诉举报等制度,明确了法律责任。 <详情>