征信大数据90%是垃圾，真正有用的数据从哪里来？_大数据资讯

入夏以来，互联网金融的天空是天雷滚滚。特别是7月份，10天100多家平台出事，引起公众高度关注。

从之前的野蛮生长，到后来严监管下的跑路潮，再到如今的两极分化，互联网金融发展格局正在经历一个从超额利润到价格战再到健康发展的过程。与之对应，放贷机构之间的竞争也可以分为三个阶段：第一阶段拼的是资金成本;第二阶段拼的是运营成本;第三阶段拼的是风险成本。而拐点的关键，就是征信基础。

征信大数据：90%是垃圾

如果把中国互联网金融的发展列一个时间表，大致可以分为三个阶段。

2006-2011年，可以看做是信贷资产拓荒期：件均放款3-5万，目标人群是白领与企业主，主要通过线下获客，现金放款。

2011-2013年，称得上是信贷资产的爆发期：授信金额两极化发展，人群拓展至学生、蓝领，线上获客变得越来越重要。

2013年之后，信贷资产开始场景化：阿里、京东、链家等场景巨头加入。

与此对应，征信需求和解决方案也发生了很大的变化。在信贷资产拓荒期，风控最关注的是负债率，对于固定目标客户群体，根据银行流水判断收入，根据央行征信判断负债。征信的主要工具就是零散QQ群，参与者都是基层从业者，效率低。

在信贷资产的爆发期，风控开始关注稳定性，关注借款用途，尤其是多重负债。征信的主要工具是系统化中央数据库，参与主体是P2P公司，效率有所提高。

从国内大数据征信行业的发展现状来看，组合式的信用评估是大势所趋。众所周知，国内征信体系不完善，互联网金融行业尚未接入央行征信系统。在此背景下，业内平台获取原始数据通常有三种方式：内生数据、通过第三方购买和数据交换。

值得注意的是，尽管很多企业经常会吹嘘自己拥有多少TB，甚至是PB的数据量，实际上它们拥有的90%是劣质数据。

有一位风险投资人这样抱怨，“在数据的海洋中，大部分企业都没有花时间去思考它们应该收集什么数据，还有采用怎样的方式来收集数据。而是习惯于一网打尽，结果它们收集到的是一堆没有任何预先计划和结构条理的垃圾。”

百行征信一家独大

从1980年代末至今，征信行业先后经历了起步、搭建征信平台、央行主导统筹等数个阶段。

2015年1月5日，人民银行印发《关于做好个人征信业务准备工作的通知》，要求芝麻信用，腾讯征信等八家机构做好个人征信业务的准备工作，择时发放第一批牌照，但一直不见下文。

最终等来的却是由中国互联网金融协会与芝麻信用、腾讯征信等把家征信机构联手成立的百行征信。这意味着征信这个金融业最关键的阀门，最终还是要由政府来监督把控。

今年6月28日，百行征信与苏宁消费金融等15家互联网金融机构和消费金融机构在深圳举行了信用信息共享合作签约仪式。根据合作协议，这15家机构将成为百行征信首批接入代表机构，向百行征信系统全面、准确、及时地报送征信信息。百行征信将对信用信息进行采集、整理、保存和加工，并向接入机构提供信用信息的查询及相关增值服务。

截止目前，百行征信已与120余家互联网金融机构和消费金融机构达成了信用信息合作共享协议，与50余家机构达成了合作意向。

业内人士担忧的是，征信公司的核心竞争力在于拥有自己独有的信息。作为直接竞争对手，征信公司之间不可能用自己的核心数据去提升竞争对手的竞争力。可以说，一方面征信公司致力于解决信息不对称，另一方面征信公司也在构建数据壁垒。这种信息孤岛，短期内无法完全消失。

“各家征信公司都采取中央数据库的方式，大家上传数据，需要时再查询。但并非所有人愿意上传数据，操作起来也比较麻烦。”

更现实的问题在于，信息共享的边界如何界定?在进行数据采集时，如何兼顾数据的质量及采集范围，避免侵犯用户隐私?共享信息的标准有待明确。

小公司很难有机会

在一位互金领域的风险投资人看来，中国征信市场结构是以公办征信机构为主，市场机构为辅，央行征信中心垄断大部分市场，留给市场机构的空间很小。

传统征信产业链由数据公司、征信公司及征信使用方三者构成。这其中，数据公司的核心竞争力在于对独特数据源的掌控和挖掘能力，而征信公司的核心竞争力则在于数据源完整度，数据覆盖人群完整性以及数据的分析画像能力。

互联网对于征信产业的改变，只是增加了数据公司的数据源，或提升了获取数据的效率，但这两点对于征信公司而言，无法重构征信公司核心的数据清洗、挖掘及画像的核心环节。对于征信使用方而言，互联网的出现，则有可能增加了自身直接采集数据能力及风控的能力，降低对前两者的需求。

“中国大数据征信和风控市场，市场化空间仅数百亿，即使年均增长20%以上，也需要十几年才达市场千亿的规模。”

牌照征信公司依托牌照赋予的融资能力及数据源权利做大，但做大的空间取决于央行征信中心的开放程度，而初创纯数据征信公司没有做大的空间。

如果央行不将数据与牌照公司共享，后者将无法低成本获得最核心的全银行信贷数据，只能从央行购买，且无法在短时间内推出比央行征信中心更有效的征信产品，只能做辅助作用。

未来征信行业将面临数据同质化、产品同质化的问题，价格战无法避免，互联网免费的思路甚至还会降低行业整体产值。

没有征信牌照，征信创业公司无法合法的去获取核心数据，比如银行信贷数据或者运营商，公安局的隐私数据;也无法以牌照去融资收购其他征信公司，资金上毫无优势。因而，业内人士认为，初创公司很难在征信领域发展壮大，成为未来的寡头之一。

征信业界最经典的成功的例子就是美国的FICO，美国FICO评分主要应用了五个方面的外部的大数据：还款历时、未偿债务、信贷历时长度、对新信贷的追求及其信贷组合。它对于这五个维度的外部的大数据进行建模，构建FICO评分，现在FICO评分覆盖了美国99%的各种各样的个人信贷的决策记录。

在上述投资人看来，中国不会出现像FICO那样独立的风控模型公司，原因有几点：首先，现今国内各大银行使用的风控模型基本属于一次性买断或自建模型团队，现行市场并没有空间给独立风控模型公司做大。其次，传统FICO模型不能满足在互联网时代多纬度数据建模的需要。最后，细分领域风控模型的专业化，随着信贷行业的细分化及专业化，通用模型已无法满足风控需求。