中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日下午大数据征信与数据流通分论坛数据堂联合创始人副总裁肖永红做了主题演讲。

 

500-333文章照片-大数据征信与数据流通-肖永红


以下是肖永红演讲实录:

肖永红:对于今天的论坛应该换一下顺序,应该是数据流通与大数据分析,刚才凭安的杨总讲了他们解决了一个问题,利用中间件的技术把征信机构数据共享起来,不在第三方存储的情况下让大家自由共享数据,对于产业来说数据流通很重要,今天这个题目,可以改成数据流通大数据征信,说到流通这个产业,数据堂2011年开始做数据交易和服务的事情,实际上就是数据流通,在这个过程中我们积累了一些经验和心得,今天跟大家交流一下。第一张图大数据生态链,很多人对里面有哪些产业,分布在哪些领域,还有原来传统云计算行业也跻身于这个里面,包括基础架构基础设施和云计算。大数据整个概念是2011年开始,经过这几年发展,这个产业比较完整了,今天很多专家在提生态和产业链,这个分工越来越细,今天讨论的是数据源这一块,目前整个大数据产业的状态,大家可能平常接触的是大数据应用非常大,包括大数据征信也是应用的一块,数据源大家一开始关注的少一些近几年关注的多一些。

国内的图谱,最上层是大数据应用和分析,一大片,平常都可以接触到。底层的基础架构是做云计算的公司,还有做基础操作系统包括一些开源技术的公司,最下层是数据源,现在有一个好现象,数据源的公司越来越多了,大数据产业要发展底层的数据流通和交流,不解决这个问题整个大数据产业做不起来,对于整个数据源这一块来说,我把他分两类,一类是很多公司和机构这些网站自身在产生大量数据,包括电信运营商BAT,这是一类,本身已经在直接产生数据源。还有一类像数据堂这样数据交易服务的公司,他们把数据源汇集和充分的流通起来,所以数据源分了这么两类。现在整个中国的大数据生态链和产业图谱处于一个相对完整的情况,接下来要做的事情是把数据资源流通起来,要想把数据流通起来,先讲几个思维,第一个大家看到这几年风起云涌的数据交易平台越来越多,这是一个好现象,最关键的一点大家都看到了数据的资产属性。前五年我们要讲数据交易,出门你得被打,这是很敏感的事情,这几年大家再提已经比较热了,第一是数据的资产属性,第二是中关村大数据产业联盟,数据之和的价值大于数据+的之和。本质上是我们的数据需要不停的被叠加,他可以产生1+1大于2的价值。

第三,数据的大价值被数据源拥有者决定,我的数据不由我决定吗?我们数据堂网上有北京市出租车GPS的定位,这个数据公开之前,我认为这个数据无非用于城市交通优化和实时路矿分析,但是这个数据放出去很多人用了以后发现他的用途五花八门,有一个医科院用我们的数据比如北京爆发一个流行病,他在分析流行病爆发的趋势,从其中做判断,数据如果不流通公开和开放出来,它的价值真的是不由自己决定,当你公开以后由大家所使用的频率和价值决定。第四众包在大数据流通中起了重要的作用。数据的资产属性凸现以后就意味着要被交易。第二,数据之和的价值大于数据价值之和,数据一定要被增值才有意义。第三既然不由你决定就流通。这个要保证合法合规的条件下让数据流通,让A数据碰到B数据产生更多价值,第四个是众包围绕数据流通的重点关健词。

回顾一下整个社会拥有的数据种类,一类,我们有一个论坛讲政府大数据,去年从国务院和政府部门,国家层面推动部门的共享,工商税务人口医疗教育卫生占的整个数据体量是非常大的,但是这一块也是目前开放和流通相对比较慢的一个环节,这是第一块。第二块是行业数据,比如电信运营商电商物流医疗等很多领域,他是一种行业数据,包括BAT。第三是互联网上的数据,比如腾讯、Facebook、各大新闻门户,他们每天在产生大量的数据,前三块的数据大家关注的比较多,有一块关注比较少,比较纯现象数据,比如大家中午在鸟巢旁边吃饭,首先找饭店不太容易,如果你找到一个饭店,你会发现他的价格不便宜,中午在这儿吃饭的时候去超市买的矿泉水比别的地方还贵,你在这片地区消费的时候发现周边的价格数据是纯线下数据,是分布在各个领域的数据,这个数据亲容易被大家所忽略。我们把这四类数据总结为数据四大家族,你逃离不了四大家族,你从中找到和我相关的数据结合我的业务产生价值。

现在有一个大问题,有数据的企业好多商业模式并不以数据为引领,比如BAT,三大运营商,很多人想他们数据太有价值,他们的主业目前并不是以数据模式为引领,三大运营商数据所占的收入只有很少的比例。包括征信企业和大数据应用企业以及APP开发者,他们都想基于某一类数据围绕以数据为核心的商业模式,偏偏这些数据没数据,这就是摆在今天的现实,尽管近今年的商业模式出来的不少,这还是一个主要矛盾,第一个问题解决数据源是唯一的出路,或者你自己有本事自己生产大数据,BAT也互相用对方的数据,除非混合起来。但是把数据源流通汇集并不是我们的最终目的,我们的最终目的让让这些数据实现变现和价值增值,这是我们提出的几个问题和解决办法。具体怎么解决,有一个数据银行的模式?人民币在哪儿流通,银行是最主要的流通方式,现在我们看到很多传统银行去吸纳存款,这有很多种方式,可能政府部门的发工资,商业部门的帐款往来,和公司商品交易的流水大家都愿意存在银行,数字银行业想干这个事儿,我们想把两端打通,真正有价值的数据的企业不以数据为主要引领模式,但是想做以数据为商业模式的机构找不到数据,所以我们在两端之间通过数据银行的模式打通。第一个要做银行存款的吸纳,数据获取,数据堂有一些尝试跟大家分享一下。

第一是数据四大家族,线下的数据很难搜集到。比如在天通苑,我想做一个数据分析的项目,我把一个月的数据找出来,但是天通苑菜市场的价格怎么办,你只能去那儿记,线下的数据非常分散不太容易获取,我们想一个办法用一个众包的方式,在移动端做了一个APP叫众课堂,我们认为在大数据时代下人是一种很好的移动数据传感器,大家在这个会场里,这个会场如果够智能会分布一些传感器,他会记录这个会场的温度湿度和其他的一些因素。这个会场的传感器是固定的只能记录这个地方的数据,我们人是活动的,今天早晨我们还在天通苑,中午我们已经来到这个地方。你可以感知这个体系。所以我们利用线下的力量采集这个数据,大概采集两类数据,一类是超市商品价格数据饭店菜的价格数据我们还可以感知不同商户的Wifi热点数据。另外一个是采集人次的数据,就是采集人的语音数据,比如四川话方言,这样通过移动众包的方式把很多线下分散出去,利用大众的力量搜集上来,我们在去年采集过超市小票的数据,很多老头老太收集小票,第一用途是开发票,第二是拿手机把小票一拍传给我们,我们再用识别技术把商品价格名称记录下来,假如我每天收集两千张搜集半年,基本上这半年的消费频次营业流水可以估算出来,这对于超市是很好的竞争数据。通过移动互联网端众包的方式可以把很多线下数据吸纳到数据银行里。

第二,我们和很多运营商和很多机构在合作,他们的数据我们也会一起联合开发做相应的产品。第三,我们在和政府合作,政府逐渐以一种很开放的心态把政府的数据流通起来,目前的步子相对小一些,因为涉及到安全隐私的问题,很多政府数据是非常有价值的比如工商税务的数据,你在民政局结婚的数据,包括在公安局的户口本的数据,这也是做家庭征信的很好的数据,还有在税务局纳税的情况,这都是很好的个人信用的数据,这一块的数据政府已经在逐渐开放,应该在两到三年内有一个很好的基于政府数据的征信应用出来,这也是我们和政府合作的。通过若干种方式我们可以看到,通过众包的方式获取线下数据,通过行业合作,把很多行业数据的系统获取过来,也有一些数据不是在本地的只是在合作客户那儿,我们通过一个远程的访问机制使用就可以了。还有互联网大数据,在座的各位都有计算机的能力,可能从网上找一个爬虫软件,今天一天可以把微博数据弄千万条。互联网的数据爬只是第一步,你抓了一亿条微博推特,你后面怎么用,还是要用自然语言的数据进行解析,我们把四大家族的数据获取过来,以合作的方式大家去使用。数据堂在若干领域积累的数据多一些,金融征信、人工智能、精准营销等等。

后面是数据怎么增值,因为数据不像矿泉水,从A拿过来经过物流给B,这个交易完成了。数据这个东西中间有很重要的环节,经常的数据需求方,他要的并不是原始数据,我们做的精准广告营销,并不要很原始的数据,我要的是这个人或者企业的偏好和爱好,我要的是某种结果或者处理以后的东西,要想把数据流通起来,中间有一个环节是数据处理,这涉及到几块事情,第一个是数据清洗,这是一个很麻烦的事情,比如我们拿到了政府好几个部门的数据,工商税务人口,这里面涉及到大量的数据格式种类不一样,而且是从不同的系统里上来的。甚至这里面有很多的杂志和垃圾,不可用的。甚至我们看到的数据是直接给你一个Word文档,你要做一个清洗,这里面包括脱敏去燥去虫,为什么我们提出大数据概念,因为现实生活中80%的数据是非结构化,每天坐公交地铁,甚至很多人开车都拿着手机微信,那是传递一条语音数据,可能大家喜欢在群里分享一些视频数据,视频数据是非结构化的,这些数据你怎么样利用,这也是大数据这几年提出的重要的原因。这里面用到一些图像识别语音识别的技术,把海量的图片、文本视频数据转为结构化才能做分析和挖掘;数据清洗和非结构化是相对苦的事儿,但是有一个事情是做数据关联,数据之和的价值大于数据价值之和。很多数据从A拿来一个数据B那来一个数据C有一个数据,三个数据有关联,有的是拿人的维度关联,有的拿时间维度或者地方维度关联,在数据银行关联以后可以产生更多价值。

数据堂在整个大数据产业链上的定位,我们在大数据产业链干的事情是围绕数据流通服务做这个事情,我们不做直接的大数据应用,我们只提供送水的服务。我们在大数据处理方面的技术,怎么把一个超市小票变成结构化的数据,可能要用到ACR识别技术,第二是很火热的AI人脸识别技术,像国内百度的识图等都有很好的人脸识别技术,但是底层需要大量的人脸图片采集的处理,这个我们帮他做,包括美图秀秀,底层有些数据也是我们做的。我们帮助电商网站做了大量产品图片数据,比如女士们比较关注的,服装,我们干的事情是帮助他们做底层图片的处理,把这些图象识别以后,他很快给你推荐一个衣服。

第四是语音识别的技术,大家在开车,我要去亚运村,他先识别你要去哪个地址,识别了以后给你一个语音导航,我看到一个哥们用的是林志玲的导航,这涉及两个事情,一个是语音识别一个语音合成,我们帮他们提供大量语音采集和处理工作,让他们快速把语音识别的引擎做到很高的程度。非结构化的图片视频语音文本怎么把他结构化的特征提取出来。最后是数据服务你通过什么方式把数据服务出去,我们不做应用,韩涵讲了一个很好,他做了一个调查绝大部分数据服务形态是API接口方式服务出去的,我们认为API本质上是租用,我们原始数据没有全部给你,你只是利用数据接口调用数据,按照这个调用的次数和流量付费,现在整体数据打包完整销售的方式慢慢的越来越流行,大部分采取API租用方式。现在的数据服务形态是拿数据投资。数据是资产,我们知道我们可以拿固定资产投资,数据也可以投资,我们现在数据银行里有很多有价值的数据。很多想围绕数据做一些新的商业模式没数据怎么办,数据堂可以给你,我们可以作为股东或者参与开发的方式。从数据的贷款和租用的方式把数据流通起来,让它的价值体现出来。最后是在金融交通精准营销方面提供的数据服务的内容。我们和公安运营商高检合作,有大量用户画像数据和消费能力数据,这些数据个人在用的时候一定是在某一个场景下经过授权以后可以查询和使用的数据,这些大部分的数据是对你不同来源数据做过的分析和统计的结果,这些数据我们现在都可以给征信公司,给互联网金融公司提供。我们现在有全国高速公路数据也可以用于征信领域,现在有专门针对火车司机的和物流供应链的金融贷款服务,他们会查某一个车一年在高速公路上跑多少公里,他经常去哪几个城市,会不会超载,这些都会对司机在贷款的时候有一个评估。

包括现在精准营销方面,最主要的几个领域,一个是房地产,大家会接到各种电话,那些信息不是我们提供的,我们现在干的事情我们和运营商和电商网站把用户画像做一个整合,包括手机行业汽车行业,这方面一个是获客一个是老用户再营销,包括他的商铺选址,我们有全国出租车GPS数据还有人口普查,利用这些数据可以精准知道这个地区开什么商店最合适等等。交通数据,我们现在给一个公司提供全国出租车司机GPS数据,大家出行之前会看时时路矿,很重要的数据源是拿出租车的数据做测算给出一个结果,我们和全国城市有合作,把这个数据提供给他之后,他做进行时时路矿的分析,这是利用高速公路的数据做了一些API的接口和数据产品。

最后是关于数据堂,数据堂在做数据流通领域,我们在2011年开始做数据流通的事情,经过五年,数据堂整个发展速度比较快,目前公司市值30亿,在新三板上2014年12月份挂牌,股票已经可以交易,目前整个数据堂在全国北京设有总公司,在南京镇江保定天津贵阳几个地方有设子公司和分公司,我们为了扩展海外AI人工智能的服务在硅谷还设了一个子公司,这是数据堂发展态势和全球布局。

数据堂,大家可以干的一个事情,数据银行这个事情是对接了两端,一端有数据另一端需要数据,我们通过汇集处理,提供标准化的数据服务把两端对接起来,需要数据的找数据来数据堂,如果我们这个公司机构或者部门有数据,大家看到很多大数据的商业模式出来,你也会着急想变现但是不知道怎么玩儿,也可以找我们,我可以帮你们变现。谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2015-08-17 11:18:00
大数据资讯 华为与数据堂共推大数据应用
华为与数据堂在京签署了《大数据业务战略合作框架意向协议》。 <详情>