信贷大数据：祸兮？福兮？_大数据资讯

2008年末，从国外度完蜜月，回到位于美国佐治亚州亚特兰大市的家中，凯文•约翰逊(Kevin Johnson)发现了两件事：金融体系正在崩溃，信箱里有一封来自信用卡公司的信。

美国运通(American Express)在信中告知他的信用额度从10800美元下调到了3800美元，理由是，约翰逊光顾的那些商店的常客，都是该公司认为还款记录不佳的人。

约翰逊是一个媒体和互联网企业家，并以此为傲。在约翰逊看来，只是基于和他在相同的商店里购物的顾客的行为，就认为他财力有限，这根本站不住脚。约翰逊表示，当时他的FICO评分在760左右，绝对属于信用良好的范畴。FICO评分是美国衡量消费者信用度的标准指标。

“那有点像一记警钟，”约翰逊说，“金融危机为公司创造了绝好的机会，采用一些狡猾的算法将本应获得贷款的人们拒之门外。”

约翰逊(他还是个非裔美国人)将信件公诸于众，推动了一场关于这种信用评测是否公允的辩论。最终运通放弃了这种做法，并且2009年美国总统巴拉克•奥巴马(Barack Obama)签署通过的信用卡法案(Credit Card Act)也加入了一条要求进一步研究这种做法的条款。

6年后，金融公司有了新选择——海量数据分析技术，让观察购物习惯的方法相形之下显得非常原始。从社交媒体、数字数据中间商和网络记录等渠道收集而来的海量信息，经过算法分析，可用于评定个人信用度，或用于向他们定向投放产品广告。

目前还不清楚主流银行和信用卡公司在多大程度上使用这些算法，也不清楚这些算法的数据输入、计算和计算结果情况如何。一方面，许多种数据驱动算法因不透明和霸道而受到批评;另一方面，将数字化信用评分运用到金融领域又引出了这种做法是否公允的问题。批评者称，使用这些信息对借款人进行预测可能会变成一种自我实现的预言，拒绝向那些与无法获得信贷有关联的人提供信贷，会固化富人与穷人之间的分界线。

“只要走错一步，你就可能陷入死亡漩涡，算法会扩大一个不良数据点，引起连带效应，”马里兰大学(University of Maryland)法学教授弗兰克•帕斯奎尔(Frank Pasquale)说。他著有一本关于算法的书——《黑箱社会》(The Black Box Society)。

这种技术的支持者认为，能够根据潜在客户有哪些朋友、雇主是谁、乃至锻炼习惯如何，得出对这些客户的全面评价，最终将有助于让那些难以在银行开户或获得公平贷款的人有能力获得信贷。

“当消费者进入一种导致他们的财务状况稍微有些失控的支出模式时，他们还能否回到正轨、以及将如何回到正轨?这就是我们能从大数据世界获得的数据，”Moven的总裁亚历克斯•塞恩(Alex Sion)说。Moven旨在为希望更好地掌握自己的消费习惯的用户提供借记账户。

支持者和反对者都同意，在贫富差距成为热点政治问题的背景下，新一代以数据为中心的信贷核发方式和算法评分会引发法律问题。

“现在这还是一大块灰色地带，”曾帮助交友网站eHarmony开发匹配引擎的科学家盖伦•巴克沃尔特(Galen Buckwalter)说。现在他为非传统贷款机构Payoff工作。“妖精已经从瓶子里跑了出来，我们已无法回头，不管是收回信息，还是告诉企业它们不能再分析点击次数、甚至键入模式之类的东西，都是不可能的了。”

美国国家档案馆(National Archives)里放着一份1935年的大亚特兰大(Greater Atlanta)地区地图，上面有蓝色、黄色和红色三种颜色的区域。旁边的手写图例写着：“浅蓝——最佳，深蓝——尚可，黄色——显然在恶化，红色——危险”。

这是美国历史上那段黑暗时期的显著标志。当时，对潜在借款者进行分类的依据，不是他们的个人信用特征，而是他们所居住的区域。

“标红”区域通常比较贫困，居民以某个种族或民族的人为主。在亚特兰大和施行种族隔离的美国南部其他城市，这种做法通常是为了阻止非裔美国人移居到白人为主的社区。

公平借贷法和平等信用机会法等一系列法规出台后，标红区域的做法被法律禁止。但令人忧虑的是，在21世纪，标红区域或许不是用纸和墨水公开写出来的，而是依靠计算机和互联网传输的数据完成的。

尽管美国法律禁止根据性别或种族等因素歧视借款者，但事实表明，通过解析Facebook和Twitter等社交网络上的公开信息，可以精确预测用户的一切信息，从政治倾向、到族裔、再到性取向。

批评者最主要的忧虑是，使用新型的数据和计算机算法，企业和机构能够建立“代理”，不公开通过性别或者种族等因素进行歧视，但可能利用相互关联的信息建立某个特定客户的深度剖析档案。

“现在有了数据，你可以预测任何事情，”零售金融服务初创公司One Financial的创始人马克斯•加内(Max Gasner)说，“根据Facebook和Twitter上的数据，可以判断你是什么种族，是同性恋还是异性恋。你可以预判出很多法律禁止作为借贷审核依据的信息，歧视也可以做得更加隐蔽。”

认真查看“点击流”数据，或者使用让公司能够追踪用户互联网活动的“网路信标”，能够仅通过观察个人如何接入和浏览网络，就发现关于个人的身份或者社会经济地位的宝贵线索。例如，皮尤研究中心(Pew Research Center)和美联储(Fed)的研究发现，黑人和拉丁裔使用手机访问银行账户的倾向要高得多，因此只要查看人们浏览网络的方式就能发现其种族身份。

“因为大数据评分使用的算法不公开，所以不可能分析算法带来的潜在的种族歧视影响，”美国国家消费者法律中心(NCLC)在最近一份关于大数据的研究报告中写道。

除了算法本身，监管借贷领域的大数据应用的法律依然很模糊。

“说到大数据，还没有明确的禁令规定不可以在核发贷款时使用大数据，”美国世达律师事务所(Skadden Arps)的合伙人阿南德•拉曼(Anand Raman)说，“然而，如果使用这种数据得出的结果对某个受保护群体的成员超乎寻常地不利，那么这种做法就可能变成一个公平借贷问题。”

正是出于对监管审查的担忧，许多大银行和信用卡机构尽管据信正在进行新数据方面的尝试，但却不愿意全心全意投入到非传统信贷信息的世界中。

“对社交数据，所有的信用卡公司实在是又爱又怕，”某大型信用卡公司的前数据挖掘师说。他表示，公开使用大数据来指导贷款核发的金融集团或许面临“登上报纸头条的风险，或者可能会被认为存在歧视”，就像信用卡公司2008年发给约翰逊的那封信造成的后果那样。

事实上，到目前为止，公开使用非传统信息的大多是一些初创公司。这些公司表示，它们的目标是利用如今可用的各种数据的大杂烩，从而更高效地发放贷款，或是向那些缺乏传统信贷信息的人发放贷款。

使用互联网、将借款人和贷款人直接联系起来的个人对个人(P2P)贷款机构，就是一个突出的例子;许多P2P贷款机构使用社交媒体信息和其它类型的非传统数据来补充贷款核发流程，或防止欺诈——比如，自动验证申请贷款者的职业信息是否符合他们的领英(LinkedIn)资料。

分析社交网络或许能让贷款机构不仅猜测出申请贷款者的种族、社会经济地位，还能猜测出他们的顾客忠诚度相对如何。同样的，研究申请者点击和浏览网页的方式，能提供有关其性格特征的线索，比如是否冲动。可穿戴技术能够追踪从锻炼习惯到心率的一切信息，这种技术的应用也为渴求数据的贷款机构打开了另一片信息领域。

“如果你是一个有条理、有责任心、习惯良好的人，那么你的信用基本上也会很好，”Payoff负责行为科学的副总裁Andy Wen说，“这些事情往往是相互联系的，如果你看到一个人在某个生活领域的行为很有条理，你会认为这种行为也会反映到信用上。”

这些公司坚信，利用行为数据可以让原本无法获得信用的人获得信贷。此外，很多人表示，利用这种信息可以去除贷款核发流程中的主观性，以往的贷款核发流程涉及由实体银行网点的信贷员亲自对贷款申请者进行评估。

“如果你探查大数据是什么，它本质上就是对客观信息的使用。”拉曼说，“我们绝对可以说，从降低公平借贷风险的角度出发，使用客观信息好过依赖主观判断或自行决定。”

有人说，比起核发金融产品，大数据和算法驱动的消费者评分可能在金融产品营销方面用处大。尼尔森(Nielsen)的Prizm市场分级法(Potential Rating Index by Zip Market，依靠邮编的潜在市场评级指数)依靠邮编将消费者划分为从“上层阶级”到“社会底层”的多种范畴。该分级法将“社会底层”群体描述为由“多种族裔”的单身男女和单亲父母组成的“过渡”阶层。这种精准定位意味着非目标群体的成员可能仅因为他们永远不会看到相关广告，而永远没机会获得某种贷款或金融产品。

美国国家消费者法律中心的报告发现，基于非传统数据评估流程出售的信贷产品，年利率可达到134%到748%——这种三位数的利率更像是发薪日贷款的典型利率，而不是信用卡会有的利率。

“这些技术总是被宣传为‘我们发现了一种让信用记录薄弱的人也可以入场的方式’，”帕斯奎尔说，“对此我持怀疑态度。我觉得你们只会看到现有的信用等级制度更加森严。”

Moven总裁塞恩说，对社交网络信息和其它非传统数据源的使用也许会让算法变的更具个人针对性，否则算法就只能靠更加零散的数据来判断一个借款人的行为。“社交数据让重心重回‘人’本身，说到底，如果你这个人不靠谱，那么你就是笔不良贷款。”

在亚特兰大，约翰逊说，他终究还是抱有这样的希望：新的技术能被用于为借款人创造机会，而不会加剧对他们的偏见。

“事情有好的一面，也有坏的一面，”约翰逊说，“我的经历就是一个真实的例子，表明事情有坏的一面，也表明很多人往往根本就不知道事情还有坏的一面。”

算法数据：需要法律界定的新评分系统

上世纪50年代中期，威廉•费尔(William Fair)和厄尔•艾萨克(Earl Isaac)将第一代数据驱动消费者评分系统卖给了密苏里州圣路易斯的一家投资公司。他们的”FICO”评分得名于两人创办的公司Fair Isaac Corporation名称的缩写。这个评分体系之后将随着计算机的发展，普遍应用于整个美国信贷业。

1995年，美国政府住房融资机构房地美(Freddie Mac)和房利美(Fannie Mae)接受了信用评分，将其纳入了抵押贷款核发流程，嵌入了美国金融体系的底层纹理之中。到2000年，超过75%的住房抵押贷款使用了FICO评分。2015年，Fair Isaac公司表示90%以上的放贷决策都参考了FICO评分。

几十年来，FICO评分都是保密的。它决定了借款人的信用，借款人却基本不清楚它的具体情况。直到2004年，美国政府才要求消费者报告机构在消费者提出要求时，提供详细的信用评分信息。

在世界隐私论坛(World Privacy Forum)委托撰写的一份研究报告中，帕姆•狄克逊(Pam Dixon)和鲍勃•格尔曼(Bob Gellman)提出，现在的新一代由算法驱动的消费者信用评分，与上世纪50年代的FICO评分一样，法律地位模糊不清。

“数据中间商、商家、政府机构和其他人，不用知会消费者，就可以创建和使用他们的消费者评分，”他们写道。

“针对信用评分的法律，往往无法为新的消费者评分提供保护。”

对很多贷款机构来说，收集非传统数据不过是尝试补充或者取代传统信用评分模式，这种模式仍然主要依靠历史信息，批评者认为历史信息并不能很好地反映一个人的信用。FICO评分的大组成部分是付款记录。人们认为已经是时候用新方法打破这种依赖历史信息的评分方式了。

“FICO评分会导致误报和漏报，”非传统贷款机构OnDeck的创始人米奇•雅各布斯(Mitch Jacobs)表示。该公司使用自己的数据驱动系统来发放小企业贷款。“一个经营了十年、客户众多、现金流良好的公司，却可能看起来信用不好。”