中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。
28日下午“大数据征信与数据流通”分论坛中,上海凭安征信服务有限公司CEO杨茂江做了主题演讲。
上海凭安征信服务有限公司CEO杨茂江
以下是杨茂江演讲实录:
杨茂江:大家下午好,参加了很多次论坛,论坛的第二天下午还有这么多人,这倒是不多的,可见现在大数据真的很热,今天我给大家分享的内容,大数据信用,特别是征信领域的采集和共享模式,里面碰到的一些问题,以及我们在实践当中的一些思考。
大家都问凭安和深圳的平安有什么关系,公司名称来自于一首诗,取了两个字,我们在成立这家公司在创业的时候,我们把自己定位为第三方,和诗的意境比较接近,我们希望能够给交易双方一种公正客观的,只是这样一种想法。今天中午碰到上海市经济委的一个领导,领导说大数据能否真正的蓬勃发展,能否对GDP带来两到三个点的增长,这个很大程度上取决于会不会出问题,特别是征信是我们大数据一个典型应用,而征信里涉及到大量的个人隐私,我们在用大数据对个人信用进行评价的时候必然会涉及到个人隐私,现在国家出台大量文件支持数据开放共享,我在创业之前做信息安全,确实业内有大量的涉公库涉及到用户隐私,这样的数据能不能流入市场,会收到什么样的冲击,在座的各位都是希望这个产业健康发展,希望我们在数据隐私保护和权属的界定上探索一条路,如果这条路走不通或者遇到什么槛,真的有可能国家出台文件说数据开放暂停,这个下一步可能不知道什么时候了。基于这个背景,现在非常明显的例子是互联网金融,国家支持的也很猛,打击的也很猛。
征信这个行业,特别是基于大数据的征信,这一点要引起我们从业人员的高度重视,今天我主要带来两个话题,第一个是关于数据采集,在数据采集过程中到底会碰到哪些问题,或者是我们从业者应该怎么看待这个问题,我们凭安在面对这些问题的时候是怎么做的,大家知道采集个人条例里第13条明确讲了,采集个人信息应当经信息主体本人同意。在座的各位在互联网上大家的信息如果要进入大数据征信采集,大家都是被采集对象,相信这句话应该是从立法者和监管机构来讲出发点一定是好的。这里面存在一个问题,这句话没有主语,采集个人信息应该经信息本人同意,实际上这里面存在两个主体一个是信息提供者,一个是征信机构,到底谁应该经信息主体本人同意,一般的理解,应该是征信机构,但是这里面存在一些问题,比如每个人在电信运营商都有自己的消费记录,有自己的位置信息,这样的数据如果我同意征信机构采集,那这个运营商在不经得我们本人同意的情况下给了征信机构,这个从情感上是很难接受的。这是从被采集对象来说,我们作为征信服务机构,当然希望是这样的,我的理解,按照这个法律的规定应该是征信机构征得本人同意就可以了,如果从情理商来说,如果信息提供方还能得到用户许可,这就没有什么毛病。
我们看一下业内是怎么做的?这是芝麻信用的用户协议,芝麻是业内在互联网大数据征信方面的翘楚,我们向他表示尊重,拿他作为一个分析,因为他是业内做的好的,我们能够看到一些引起大家思考的点。用户协议是这么说的,您授权我们可以合法保存您的相关信息,第二,采集的信息可能有很多地方,每个地方让你授权很麻烦,如果你同意这份协议以后就不用授权了。这个从征信机构的从业者来说是可以理解的,前提说一下,中国没有这个公平信息法,没有公平信用报告法,没有这样的法律支撑我们的行为,所以从业者我认为应该是慎之又慎,这份协议是当你看你的芝麻信用分的时候会有这样的协议,他可能会带来几个疑问,第一,我在签这份协议之前采集了吗?第二个问题,我是签了这份协议之后,我作为公民基本的信息知情权就没有了吗?后面还有一句话我们采集的信息来源包括但不限于金融机构类金融机构电信运营商,政府、信用中心,上海市信用中心和杭州市信用中心,在签这个协议之前采了三家银行,他不可能采到一百家银行,你签了以后我采其他的时候不用通知你,这个作为被采集信息的主体来说,我签了协议放弃了自己的知情权,不知道你去哪儿采了。
第三,作为征信从业者来说,征信机构本身自己产生数据没有任何一家征信机构自己产生数据的,芝麻信用的数据主要来源于淘宝支付宝的交易,法律上来说是两个主体,所有征信机构要申请个人征信牌照要新注册一家公司,新注册的从哪儿来数据,数据一定是来自其他的机构,叫数据信息提供方,这有一个很大的疑问,用户签了协议认可了征信机构数据采集行为,是否意味着信息提供者,比如电信运营商,基础公众事业服务商,水电煤,他在面临用户隐私被侵犯的时候就没有责任了吗?这个可能从法律上来说是另外一个概念,因为征信业管理条例只是国务院的一个条例,在这个条例上还有更多的上位法,比如民法,你侵犯了我的公民隐私,还有《刑法》352条非法获取公民个人信息罪,这一条是否说明信息提供方不该承担责任,我想不是这样的。从这个分析来说,如果这些点没有一个好的解决方案,没有一种好的思考方式,可能就是一两件个人隐私泄露事件造成本来可以蓬勃向上欣欣向荣的行业就夭折了,可能在座的各位投入了时间青春金钱去做的事业,由于这种不可控的因素夭折了。在这里我想提出这个问题,大家来思考和探讨,我们有我们的一些思考,我们认为,特别是在当前这个环境下,从业者也好,信息提供方也好,我们至少要做到三点,第一,在得到用户同意之前真的不能采集用户信息,这里有一个问题,比如央行发个人征信牌照,他总说你首先得有数据没数据做什么大数据征信,这是不是个问题?我相信这也是困扰监管机构的一个问题,这个问题至少在今天我讲之前能把这个事情说清楚的人不是很多。
第二个,信息提供方在征信机构取得用户同意之前,这个数据不应该把公民的个人隐私给到第三方征信机构。第三,作为一个自然人来说,从情感上从基本的人权,从基本的出发点来说我们都应该有知情权,我应该知道你采集了我哪些数据,这些数据是怎么用的,这是应该的,所以这三点,我们认为作为一家征信机构和信用服务机构应该做到的,作为从业者,我们确实采集了个人用户的信息,采集了企业的信息,如果你连用户都不尊重,可能这个事情确实是走不通。第二作为一个征信机构我们自身并不产生任何的数据,你必然是和其他的机构合作,这个时候我们应该从机制上,从做法上,要维护或者是保护我们信息提供方的权利。
我们怎么做呢?这个事情也不复杂,信用主体,举个例子,他因为使用了运营商的服务,不仅仅是运营商,公众事业银行等等。他通过用了服务商提供的服务,服务商肯定采集了他的数据,比如运营商有这么一条记录,手机号姓名,当月消费额,301块,这是运营商本身数据库里有的。这时候我们怎么做?我们在跟运营商合作,我们跟所有的数据提供方合作的时候,这是我们提出的,希望他把标识信息做一次算法,之后把这样的数据放在你那也可以,放在我这儿也可以,这不重要。我们得到这样一个记录,这个结果是手机号+姓名的值,301块。大家如果对计算机懂一点,这个原理非常简单,他解决了很大的问题。
首先说的这个Hash算法是不可逆的,拿到这个结果不能推导出这个,如果有安全专家说用Hash(Mend)等类似的破解算法,那个是原文很短的情况下,如果加上姓名这个组合就是无穷的,通过这个结果推导出这样的组合是不可能的。通过这样一个算法,我们征信机构拿到的数据是不含个人的身份标识的。没有户的身份标识不叫用户隐私,因为我不知道你是谁,所以这一点,我们成功的实现了一点个人隐私的脱敏。从监管的角度困扰大家的问题也得到解释。我要给你发个人征信牌照,你必须有大数据,在没有用户同意之前你不能采集用户数据,经过我们这样一做之后这个问题就解决了,如果你有足够多的合作伙伴,你只要脱敏,按照这种方法脱敏之后,即使有中国13亿的数据,因为你在没有得到用户授权之前是没有用户标识的,你不知道他的姓名和手机号就不叫个人隐私了。但是这时候你有大量的数据,你有这个数据之后怎么用?这是一个典型的场景,信息主体,比如到银行申请贷款,银行给我来一个信用服务的委托,这时候我做一个用户匹配,结果返回来,第三步信用服务委托的时候,这时候因为我去银行贷款,我一定把手机号姓名告诉银行,这个时候银行说你必须给我授权,这都很容易做到,用户的姓名手机号给我之后,这里做了一个相同的操作,在前面做一个相同的计算,相同的原文输入只出唯一的结果,这样在库里,就能在预处理库把这个拿出来,我得到了用户的授权,就得到了这条记录。这是一个很小的技巧,但是这个技巧确实对这个行业有非常重大的促进作用。
我经常参加一些大数据论坛,上来讲的人都是这样, 我们公司有两亿用户的设备,有多少亿的消费记录,真的是这样的,现在到北京市公安局去报案,这真的是红线,这么一个技术上的改进把这个问题得到了非常大的提升。这个改进达到两个目标,第一,数据提供方跟我的合作不在用户里,还在他那儿,甚至给了我,数据也不叫用户隐私,而且这个动作给监管机构的领导在沟通的时候我也说了,这个动作不叫征信和数据的采集,叫数据的预处理,更重要的是,这时候我可以告诉你,征信机构可以告诉你,我获取了你什么数据,在哪里获取,而不是采集大量数据最后不告诉你在哪儿采集,这是我们对第一个数据采集的问题,我们做的一些思考,欢迎大家跟我交流。这是第一点解决了隐私问题,用户的知情权保护问题,接下来的问题,现在的征信主要有两大块,今天我们讨论的是市场化的征信,还有一块是人民银行的征信中心,这个是靠行政的要求,第二银行有需求,他们形成了这样的一种机制。但是市场化的征信模式主要有这么几类,第一,刚才讲的类似于芝麻信用,类似于央行说准备开干的八家,以及后面纷纷争取要开干的很多家,大概都想往这个模式发展,这叫做单体的模式。征信机构采集各种数据源对外提供服务。这有一个很大的问题,目前看起来只有BAT能采集到足够多的数据,其他的机构可能得很难,这个确实是这样,但是如果你是BAT你也很痛苦,你的数据也不全,阿里只有消费数据,腾讯的数据更乱一些,只有社交数据,社交数据怎么用也在探索,他在数据的覆盖度和完整性上,这个模式肯定有问题。2015年是征信元年,今年是二年,到现在你们业内也没有听说第三方征信机构有一个什么杀手级的应用,金融机构说这个好我必须要的,没有,大家都在探索,这种模式存在着一些问题,信息的覆盖度不可能全,在央行一指令下去商业银行必须把贷款数据给我,不给就吊销银行牌照,这个不行,靠市场化有点难,所以这个存在一些问题。
从业者都是聪明人,有了这个问题之后,大家发现数据采集不过来,我们建一个共享平台,好多地方在建,有市场化的,有政府的,我们都是银行,银行都有黑名单,大家共享,建一个中心,叫做聚合模式。比如机构说我要查小明,聚合中心把这个请求发出去,发给别的三家,机构四说小明在我这儿有一条数据,机构二说我这儿也有一条,聚合中心把这两条加起来给他。现在这个模式还挺多的。但是要加入这个联盟里的人肯定都得有货,数据质量有保证,但是存在一个问题,这个业务机构说我要查小明,后面的人一听小明是他的客户,这个情况肯定存在,或者我在进去之前要这样想,他成立一个很高的门槛,很多人觉得这确实是一个问题。
第二个问题,这个一定会存留数据,不然他没法跟大家结算,那就存在一个问题,他存在的这些数据是什么,这是因为一个好处带来的更多的问题,这个模式现在很多地方在推动,但是我对这种模式不太看好,你只要开这种会,我们搞一个聚合共享中心,那肯定双手赞成,要是把数据结成链条那就蔫了。这不光是征信这个行业大数据交易,整个大数据的共享都面临这个问题,都是一样的。我一再的讲我的观点,中国在没有类似于征信行业,公平信用报告法,在整个全民数据共享里没有公平信息法,没有法律支撑的环境下我们总得做,我们针对数据共享提了一个想法,我们把他叫Xcredit,X是交换的意思。我先发布一段列表,我有XXX,我也不知道他是什么意思,把我的身份ID做了一个值,这是他们算出来给我的,各个机构,这个机构有这个信息,他算出来再给我,所以我不知道是什么。假设这个是我,他们给我之后,我发表一个列表,我有这些东西也不知道是什么意思,这个时候机构说的是我要查这个XXX,因为这个时候可能有一个用户到这儿来给他的手机号和姓名是135和杨茂江,他就算一下,一看索引里有这一条,就对上了,他就知道接入的机构里至少有一家有这个信息,他算了一下之后发出的请求是我要查XXX,他发出来的不是我要查小明,这个差别很大。
这个时候查出来的,把这个请求发给三家,分发出去是我要查XXX。我这里知道他有XXX,我只发给他们俩就可以了。这个时候,他们就把自己对应的信息用某一个密钥进行加密,这个地方有一点技术,这个密钥对应的是他的,这不是一一对应的而是一对几十万的量级,所以这个很难攻击出来,这里面的数据是加密的,我也解不开。然后把这个数据丢给他,这个机制在所有的大数据交换、共享里都是适用的。他解决了这几个问题,第一数据是由提供者存储和管理的,其他人在过程当中都不可能得到他的数据,第二,查询请求只会发送给有这个数据的机构,不会造成我是小明到处跑,我们只发到有这个数据的机构,不会造成查询信息的泄露。第三,这里我做了一个盲路由,他不知道我把这个数据转给了谁,这个人也不知道谁提供了数据,如果我查明一个用户知道是某个机构反馈的,我就知道这个人是某个机构的用户,所以数据查询方式不知道数据是由谁提供的。数据的机构三和四也不知道是机构一发出的请求,所以他并不知道这个客户到底是谁。
第五,我发起这个数据是全程密文的,作为中间的接口人我也获取不了数据真正的内容。整个数据设计了一套机制,他的质量是可以跟踪追诉的。最后是整个体系完全透明,没必要藏掖着,刚才的用户协议不存在这个问题,我到哪儿采集了就是不告诉你,这里我们很清楚,我告诉你,谁有你的数据,真正保护了用户的知情权。刚才讲的这两个问题是凭安在过去这段时间里结合整个大数据的信息,特别是征信行业领域的应用,征信大家都认可是大数据应用里非常典型的应用,但是有两个核心问题,数据的存储和用户个人隐私的保护,如果这两点解决不好,整个行业有很大的坑在前面等着。我们做了小小的尝试和思考,具体实现,他是用块链的方式做,我们申请了一些专利,通过思考,我们建议数据采集的标准,韩博士做的是行业标准。第二是信息共享的机制,专利不是壁垒,专利主要是担心行业外的人如果申请可能对大家不利,所以我们把所有的方法,我们愿意跟业内完全免费开放。这是我们在这两个点上的思考跟大家分享一下。后面还有一点小的分享和工作。
凭安征信是取得了企业征信的资质,我主要讲一下在企业征信分析的案例,讲讲大数据征信怎么做的,这是一个典型的案例,是我们和360一起合作的,国家发改委下达的一个任务,希望我们对双十一当天全网的电商交易的信用状况进行监测,我们监测了1.27亿件商品,阿里一说几千亿,几万亿,我们也关心到底是多少,所以我们就干了,我们监测了1.27亿商品,我们也想知道双十一当天有多少商品成交,双十一当天有3470万件商品有交易,其中90万件商品销量比前一天翻了一倍,双十一当天是九百多亿,那么多亿只有90万件商品是畅销的。我们还进行了分类,每个商品分在什么类目上,类别的分布情况和占比是多少,双十一当天还是3C产品占总销量大。用户的分布这些都比较平常,我们这个报告有一个特点,我们基本上采样量是目前所有的各式各样的报告里大的,我们可能采集了全网至少40%的用户得出的结论,有些做市场分析的号称有15万客户端采集的用户数据,这个东西信则有,我们至少采集了全网40%得到了这个数据。发改委给我们的课题是双十一网络交易信用监测,什么叫信用,说一不二叫信用,双十一当天买的东西到底便宜不便宜,这是一个很有意思的话题。
畅销商品里双十一当天往前推两个月,当天的价格并不是最低价格比例占到75%。在两个月内提价占比86%,先提起来再降下去,这一周占4.5%11月4号的一周占了7%,还有提价的幅度大于200%,降了2.6%。这是双十一涨价的32%,这个报告网上有,是发改委发布的。
信用还关系到政府的一些监管,我们通过对用户商品的分析页面的内容,我们发现这个叫虚假宣传大家多少,违禁词多少等等。凭安征信在大数据征信方面,有一些独立的思考,我们把这些思考在这里跟大家分享,目的是我们一起来思考这个行业怎么能够一步一步更加稳健,让这个行业更加蒸蒸日上,谢谢大家。