“垃圾进垃圾出”大数据征信可靠不可靠_大数据资讯

当今大数据风行一时，各行各业都趋之若鹜。在征信业更是如此。但如果认真的问一下，什么是大数据，却没有一个一致的答案。

很多分析认为借贷双方信用信息是非对称的(asymmetric)，大数据可以帮助贷方弥补与借方信息的差距。这个论点的前提是对的，但美国的经验证明信用报告能够很好的解决这个问题。而大数据用于征信存在一些很难逾越的障碍。

大数据由来

准确性是征信的第一准则。本着这种精神，我们来看一下大数据的由来和其准确定义。

在美国计算机协会数字图书馆中，大数据(Big Data) 第一次出现是在1997年10月，迈克尔·考克斯 (Michael Cox)和大卫·埃尔斯沃思(David Ellsworth)发表的一篇关于处理图像数字化后数据量管理的文章里。文章开头指出 “图像数字化给计算机系统出了一个有趣的难题，数据都相当大，占用主存储器，终端磁盘，甚至远程磁盘的容量。我们称之为大数据的问题。” 从这以后，数据随着互联网的发展呈现爆炸式增长。“大数据”也成为各行各业的一个热门的话题。

明白“大数据”始于图像数字化非常重要。大数据包括：可视化数据 – 视频，照片，指纹印记等;言语数据 – 声音和语言，其他声音(动物，自然);社会关系 – 工作和个人关系(LinkedIn);各种同时和即时的活动 -人类，动物或自然(信用卡交易，微博，人类活动，传感器和计量器等);等等。但占压倒性比例的数据是影像。思科(Cisco)公司去年的报告指出，目前美国78%的互联网流量是影像。这一比例在三年内会增加到84%。影像在所有新创数据中的比例，应该是接近或超过它在互联网流量中所占的份额。

具体到征信领域，通常把信息局和银行搜集的数据叫做常规数据，其他的叫大数据。

大数据包括了所有可以获得和可以产生的数据。和常规数据相比，“大数据”种类多样(影像)，产生速度更快(90%的数据是近两年产生的)，数据量比常规数据大千倍万倍。这些特点使得传统数据分析工具和方法难以应对。

美国征信业的起源

国务院“征信管理条例”对“征信业务”做出了明确定义：“征信业务是指依法收集、整理、保存、加工个人、法人及其他组织的信用信息，并对外提供信用报告、信用评分、信用评级等的业务活动”。简而言之，征信是建立和提供“信用档案”和“信用评级”。

将此“征信业务”定义用于美国，它包括了四项相当不同的业务：

1.个人信用信息局 — 包括美国三大信用信息局Equifax、Experian、和Trans Union 和很多小型个人信息公司。

2.信用评分 — 主要用于个人。FICO(费埃哲)基本上垄断了这一行业。

3.商业信用信息局 — 未上市公司的信用信息主要由一家公司Dun & Bradstreet(邓白氏)垄断。上市公司信用信息公开，在美国证卷交易委员会(SEC)的网站上即可获得。

4. 信用评级 — 主要用于商业公司。美国有很多企业在这一领域。但最重要的有三家Standard & Poor’s (S&P), Moody’s, 和 Fitch Group.

个人和企业征信有根本的区别。本文只讨论个人征信。企业征信将在另一篇详细论述。

在美国，当一个人到银行去借钱，银行要对借款人进行“5C” (Character、Capacity、Capital、Collateral、Conditions)贷前分析和审查，以确定借款者是否会还本付息。分析和审查需要的数据，包括认识借款者是谁和其人品，以前是否借过钱，是不是有过借钱不还的记录(Character);借多少钱，什么用途;最近几年收入多少;借款人财产情况;根据收入和财产判断它是否能按时还钱 (Capacity);如果借钱买房，本金占多少比例(Capital);房子价格、状况(Collateral);此外还要分析当地的房市和经济情况(Conditions)。银行会要求借款人提供一系列的证明材料：收入、财产证明、银行月报、信用卡和已有房贷月报，以及其它报表;银行的信贷员还要打电话给申请人单位或者登门拜访，以了解申请人的人品、收入可靠性和稳定性等。银行要花很多时间，做很多工作。如果借款额大(在美国高于十万美元)，银行有钱赚,借款人也可以理解。但如果是申请一个少于三万美元的信用卡，上述的过程让银行代价太大，借款人也很麻烦。这个小额贷款对借贷双方费用都太高，也就做不成了。当这成了一个需要解决的社会问题时，征信业应运而生，其目的是提供一个“信用档案”来减少或取消信贷、保险及雇佣过程中所需数据的采集和费用。

美国《公平信用报告法案》解决个人征信问题

美国在1970年通过《公平信用报告法案》以后，通过几十年的摸索和实践，基本上解决了个人征信问题。房贷中的人品分析和已有债务在信用档案中可以直接找到，减少了分析和审查的工作量。而对于无抵押小额贷款或信用卡申请，信用档案加上申请人口头报告的收入情况，就可以满足贷前分析和审查的数据要求。这极大减少了银行无抵押小额贷款或信用卡发行的费用，其结果是信用卡在2000年普及到美国成人人口的80%。

《公平信用报告法案》以法律的形式具体规定个人信用信息局、信息使用者和信息提供者的责任和义务。要求个人信息局公平、合理、准确，保护个人信息和隐私。法律指出消费者有了解自身信用文档的权利;信息局对外透露个人信息须有信息主体本人书面同意或其他具体合理用途;当信息主体本人提出信息不准确不完整时，信息局和信息提供者必须调查并给与答复。该法案还规定，个人信用档案中超过一定年限的负面纪录必须删除。例如，破产记录只能保留7年。

至于信用评分使用的信息，法律界有一致的解释。《公平信用报告法案》适用于个人信用评分使用的所有信息。这就是为什么FICO只使用信用信息局的信息来评分。

在《公平信用报告法案》通过之前，很多信息局的信息中，除了直接从债权人处获取的属于具体事实的消费者信用记录，还有一部分被定义为“消费者调查报告”的非事实信息。它的目的是了解一个消费者的性格、信誉、个性特征及生活方式等;其信息是通过“调查访谈”认识或者知道被调查者的人群，比如被调查者的邻居、朋友、同事或者合伙人等。《公平信用报告法案》对这种调查行为和信息进行了详细定义和具体限制，把它摒弃于公平信用报告之外，目的是使信用报告符合三大原则：准确性，透明性，相关性。

大数据征信难题

征信法律是大数据征信的第一个难题。

去年三月，美国国家消费者法律中心对主要的大数据征信公司进行了调查并发表了一篇重要的调查报告。题目是《大数据，个人信用评分的大失望》。文章指出大数据征信公司的信息错误率高于50%。这些公司的数据模型繁多又复杂，使用不准确的数据，有“垃圾进，垃圾出”之嫌。文章对这些公司的合法性提出质疑，建议政府加强监管。

大数据征信在中国问题更大。“征信管理条例”明确规定“采集个人信息应当经信息主体本人同意，未经本人同意不得采集。”。这比美国《公平信用报告法案》对信息采集的要求更严格。如何按照条例要求，让信息主体本人同意用没人能说得清的大数据对其进行征信，这不是个容易事。

坏账的“不可预测性”是大数据征信的第二个难题。

征信的目的是预测借款人是否会守信还贷。那么人为什么会借钱不还?这里面有两个原因，一是有钱就是不还;二是想还就是没钱。第一种情况在美国很少。原因是信用报告和就业、住房相关，对中产阶级价值很高。有工作、有钱的人不会为几万美元债务毁掉自己的信用，这是赔本买卖。但是 2008年房贷危机后产生了一个比较特殊的现象叫做策略性欠债不还——借房贷的房主在房价下跌到比贷款额低很多的时候，再去买一栋房子，然后不付以前买房子欠的贷款，把以前的房子还给银行。这一策略可以“套利”几十万美元。银行只能把房子收回，损失几十万美元。虽然这些人的信用记录上会有一个污点，但是这对信用报告的影响有限，因为其他的债务照付不误。这种坏账历史上没出现过。造成这一现象的原因一部分是经济和房价波动，但更主要的原因是政府政策失误。大数据对这种坏账的预测(征信)能力非常有限。

至于没钱还债又可分成两个原因。一个原因是借款人花钱花得多了，入不敷出。美国的一些研究调查显示大概有三分之一的美国人是”月光族“ — 每个月把挣的钱基本上花光。这部分人很多是低收入，一旦发生意外，比如车祸、生病，或者别的一些紧急用钱的情况，他们就只能把能借到的钱都用上。这些借款的利息都很高，利滚利，时间久了，还不了债，就成了坏账。有了坏账信用评分就比较低。这部分人有一个不雅的统称叫“次贷借款人” (subprime borrower)，在个人信用信息局的档案里占20%-25%。银行根据信用报告和信用评分的信息识别这样的客户，对他们非常谨慎，贷款卡的紧，贷款额比较低，利息也比较高。美国几乎所有大数据征信公司都是在做“ 次贷借款人” 的征信细分(包括颇受国内关注的Zestfinance)，声称可以通过大数据找出其中信用好的借贷人，但到目前成效不大。

另一个原因，也是最主要、最普遍的原因是借款人收入出了问题。美国人失业后可以领取失业保险金。美国“劳工统计局”的数字显示在经济好的时候，每四个星期新增领取失业保险金的人口大约是28万人，其中15%的人失业时间会超过半年，称为长期失业。一年平均长期失业人口约为55万。这个人群中多数也属于“次贷借款人”。而在2009年经济危机的时候，每四个星期新增领取失业保险金的人是65万，长期失业的比例是45%，当年长期失业人口约为380万。也就是说，经济差的年份里长期失业率是经济好的时候的7.2倍，按人头计算是增加了325万人。增加的这部分长期失业人群大多数曾是“优良借款人” (super-prime or prime borrowers)。

美国信用卡的坏账率在2006年是3.5%，而在2010年是10.5%。这七个百分点的增加几乎全部是新增长期失业人口造成的。经济好的时候，要预测哪年会发生经济危机、哪些人会失去工作、失去工作中的哪些人会赖账，这是不可能的。现在的经济情况和2006年有些相似，没有听说过用大数据预测下一个经济危机的，但要用大数据征信的公司倒有不少。如果清楚坏账增加的主要原因是经济危机造成的失业等内在的不可测性，那么大数据的局限性也就很明显了。

大数据如何作用于金融领域

那么大数据在金融领域有没有作为?答案是肯定的。大数据会促进银行业的发展和变革，但它的应用领域会有两个特点：1)对准确性的要求会比征信低一些; 2)会用很多录音和影像视频。在风险管理方面，大数据在减少欺诈、贷后管理以及坏账征收方面有很多应用;在市场营销，客户管理，也有很多成功的例子。金融领域的大数据创新应该在这些方面下工夫。

总之，我们今天熟悉的个人信用报告体系是美国经过半个世纪的摸索，实践，提炼形成的。它以高的效率、最低的成本解决了就业、信贷、保险交易过程中，信贷双方财务和信用记录信息不平衡的问题。由于信用报告是透明、准确的，所以对信息持有人是有价值的。从宏观的角度来看，信用报告一方面降低了借款的成本，促进了美国内需的增长;另一方面也促进了社会诚信，和谐的发展。美国成功的经验和好的法律条文很值得中国借鉴，汲取美国和其它西方国家征信业务中的优点，改进其不完善的地方，中国有可能用十年的时间达到发达国家的征信水平。放着一个成功的样本不去研究和学习，花很多时间和资金去搞一个以大数据为名义的“消费者调查报告”，名为创新，实际上是在走一段美国人走过的弯路子，实在没有必要。