11月1日,由中国信通院主办的2019(第二届)中国金融科技产业峰会进入了第二天分论坛环节。其中,分论坛六《金融业数据治理与应用》在当天下午隆重召开。该论坛由中国信通院云大所大数据与区块链部业务主管马鹏玮主持。
会上,滴滴云计算有限公司产品专家王川川为与会者带来了题为《数据资产管理:《基于数据目录的数据治理&应用》的分享。
滴滴云计算有限公司产品专家王川川
王川川:大家下午好!我是来自滴滴云,今天是以产品经理的视角给大家再陈述一下对于系数据治理和应用探索过程中的理解和方法。
数据治理这个概念现在在数据领域是细分的学科,现在各个公司、企业、行业对数据治理有一些约定俗成的认识或方法论,如把数据治理理解为包含了主数据、数据质量、数据标准、数据安全、数据生命周期管理等一系列产品整合的方案,现在一直在演进过程中。
因为我是一个产品经理,从产品视角给大家阐述一下,大家讨论数据治理时讨论什么?
首先可以把数据的公民抽象出几大类角色:CDO。数据管理者;数据生产者;广大的数据公民。
从数据治理角度来看,这四个角色对于数据治理关注点完全不一样。
CDO,肯定关注整个企业数据资产大盘,安全合规,数据信息价值如何发挥出来。
数据管理者,更多关注在怎么降低数据成本,从数据管理角度做到这些数据的安全合规。
数据生产者,把数据治理定义在数据一致性、稳定性、及时性这些在数据质量相关的视角上。
数据消费者,更多关注在这些数据在哪儿找到,如何能看得懂,如何使用。
总结:数据治理包含数据的资产化,数据的服务,数据的交付。
数据在治理过程中,把信息熵降到最低的过程。在信息论之父1948年发表了论文中提出“信息熵”这个概念,引起很大的反响,“熵”是物理学概念,指信息在传递过程之中一些不稳定性,所以很好地类比数据治理和使用中的场景。数据治理的目的是要让数据使用过程中的问题尽量减少,数据治理的目的就是把信息熵降到最低的过程。
在数据的信息化时代和数据资产化时代,从很多维度已经有明确的区分。
承载信息方式,IT时代,数据是描述的,数据治理里面也是以信息为出发点去构建信息与信息的连接。在知识和承载方面,专家是非常宝贵的,而且专家经验是很难被传承下来的,但是在数据资产化时代,已经可以看到承载信息方式通过数据还原信息本身,在方法论方面,已经转变为以组织或个人逻辑点构建的是人与人的连接,同时信息是动态流动的,方法论已经进化到重协作和治理,知识烟囱也得到了改善,以AI为助力,协助专家经验零成本的去继承。
互联网的特点是发展非常迅速,随着数据的巨量增长,经历过数据烟囱、信息孤岛的过程,我们提炼出三个维度的切入点:数据、工具与流程、人。
数据维度。数据维度关注的是数据的可描述性和可获取性,完善到数据技术属性、业务属性、管理属性,这些具备之后,数据很容易被解读、被理解,而可获取性不仅只包括数据的准确性、一致性、及时性,还包含其他诸如在安全合规的前提下获取数据的便利性,这是一个视角。
工具和流程的维度。这个维度着重解决连接效率问题,连接不仅仅是信息之间连接,包含人、信息、知识和智慧之间的连接。
人的维度。充分调动人的能动性和组织的力量来进行数据治理的工作。
有了这三个维度的支撑,围绕提升工作效率、治理与合规两个大的方向,去做一些类似于数据价值的度量、提升数据发现、理解与获取效率,通过与社区丰富信息用数据说话,通过信息分享降低障碍,降低重复的体力劳动,最后通过丰富的API提成及数据服务来提供完整的数据应用的链路。
下面给大家介绍一下我们在实践中的一些方法论。
1、我们认为一切的问题都是人的问题。
如何理解?我们在观察用户使用数据过程中,发现困扰广大数据用户的问题有很多共性,如公司有什么数据,这些数据存储在哪,产出是否符合我们要求,基本定义是否符合可以解读的。从这些问题之中提炼出两个指标:
一是耗时占比,就是说一个用户完成一次数据分析,在查找和理解到最后去信任那个数据所花费的时间和完成这次数据分析所使用的时间占比,经过我们公司内部进行的调研,大概耗时占比占到80%左右的时间,所以这个过程是非常长的。我们就把耗时占比指标作为我们在数据治理和应用产品体系之中要解决的核心目标。
这个场景很容易还原出来,大家在使用数据时,对数据有疑问,要找谁,就算找到人,但是这个人可能已经不负责这个数据的更新与信息的解释了,或者就算找到人,人也负责,但是由于关注点不在这儿,也得不到保障,成本比较高。
总结:沟通不畅,信息失真和缺失,权责不明。
二是使用数据不便的占比。调研这些用户时发现,一个直观的感觉使用数据是否方便,从用户结论中发现,90%的用户认为是不方便的,分为两大方面,工具和产品比较分散,很多系统权限是分散的,要具备相同权限才能完成一次分析;产品提供的覆盖分析场景不是特别全面。
在数据应用过程中,我们认为这些困扰着用户的办法其实都是我们在人、系统上的一些不足导致的,所以提出第一个概念,即资产到人是数据治理过程中一个很好的切入点,通过这个动作,可以把数据的负责人制定好了,通过调动这些负责人的积极性,来完善数据的技术属性信息、业务属性信息、管理属性信息,就可以建立起消费者和生产者之间的连接。
2、如何量化数据价值的探索。
在数据治理时经常都是跨组织、跨业务的进行数据治理,大家真正在推动数据治理过程中很难推动,或者推动了,得出的结果也不是预期那么好,背后有深层次的原因,如业务线和部门的KPI跟数据治理目标是否一致?大家看不到什么收益或者也不知道怎么去治理,所以这是一个困扰在数据治理过程中很大的一个问题。
大家也知道数据价值金钱是衡量不了的,在一些实践过程中,有些企业会把资产的调动次数或数据文件存储的大小作为简单的衡量数据价值的方式,这种是不全面的,所以我们在跟一些数据使用用户,包括跟行业公司交流时,探索出了更多的维度衡量数据价值,如引入了数据的流通节点分析,包括部门或人员共享数据的数量,信息的完善度,业务权重,使用频次,数据产出保障程度,数据的分级分类,引用这些权重之后,推出了一个产品工具平台,来度量这些数据、部门、人员、数据本身的价值。我们认为数据价值不是简单一个指标可以衡量的,应该是更多分类细的指标综合多方面呈现这些数据的价值。
核心重要的点:连接。
在数据资产化时代,连接指的是人、信息、知识和智慧之间的连接。很简单的理解,就是基于一个资产各种报表、各种特征,包括一些文档,人在使用这些资产时沉淀下来的过程数据都应该连接起来,如一些生产脚本、变更记录、使用案例、对资产描述信息、警告、提醒、推荐、评价,关于数据之间相关问题,包括数据使用的一些SQL代码片段等等,这些过程数据更多反映出数据全貌的,所以让数据易于被理解、被信任、减少消耗时长的占比,我们通过连接这么一个产品的理念来实现的,让我们这个产品或治理手段能够更懂用户,辅助用户去实现。
我们产品也用了一些概念,众包、分享、协作。这几个理念能解决什么问题?能解决资产、数据被理解、被信任的问题,因为在数据信息化时代,信息是静止的,其他数据公民只是被动去解读这个信息,数据资产化时代,信息是流动、动态的,只能通过发动广大数据公民,通过众包形式完善这些数据的信息。如对数据描述信息,通过众包形式,随着越来越多消费者的使用,对数据所包含的内容就可以逐渐去完善,更趋近于表达这个数据真实的含义。
我们对使用案例、标签信息、使用记录等,因为本身自带一些知识沉淀在里面,把这些信息也完善起来,最后在耗时占比进行很好的补充。
统计发现,一个公司或一个企业里的数据只有10%-20%之间部分数量是非常重要的,高频次使用,而且80%左右的数据都是衍生的资产,使用频率、保障级别相对少一些,所以从众包角度上来说,更多关注的是针对10%-20%的数据,通过这种方式去实现,而其他的数据只是通过运营的手段,经过长时间的运营之后,逐步得到完善。
分享。分享是产品的核心能力,因为我们认为一个很好的资产应该更广泛的分享和使用。
协同。我们认为这是提升效率的一个非常有益的办法,广大的用户在使用数据时,相当多的精力都是花费在各种工作群、微信群和钉钉群类似的群里解决问题,既然有沟通群能解决沟通问题,为什么我们产品还要强调协同的能力?是因为工作群有天生的一个弊端,知识和信息不能沉淀,这些解答问题的同学每天都在花很多时间在解答问题。我们对协同的场景进行了细分,从沟通的场景来说也分为两大类:紧急类沟通、非紧急类沟通。在产品中把紧急类的问题沟通通过产品方式提供各种沟通工具,电话、邮件等,能够相对快一些方式呈现,其他则通过简单的问答形式来呈现。
数据使用和数据仓库建设之间的关系图,从用户使用记录方面缺乏很多信息,而用户使用的过程,我们能从中提炼很多有用的信息,如识别到这些用户与他使用的业务场景、使用的数据、使用的逻辑,有了这些信息之后可以通过AI方式解析到一些模型里,当用户下一次使用到这些数据时,可以针对性提供这种应用场景的推荐,更贴近于用户的场景。
对于跨国企业数据合规和共享流通的探索,通过联邦架构的形式。
特别强调数据运营能力,运营是一个单独的模块,提供三个方面的能力:
用户运营。主要是分角色、分用户、分黏性给用户提供数据服务;
发现业务的价值;
释放数据价值,通过观察运营目标,主动发现数据开放共享过程之中,数据质量、数据流通工作之中的亮点和不足,进行提升数据服务。
以上是我今天给大家带来的分享,谢谢大家!