这几年, 大数据 (big data) 的 “出镜率” 颇高。 连带着, “数据科学家” (data scientist) 成为了新的高薪一族。 人气、 财气的提升也带动了士气, 有人开始高估大数据的神通, 仿佛只要积累了足够多数据, 请 “数据科学家” 们坐在电脑前——就像福尔摩斯坐在太师椅上——敲一通键盘, 各种问题就都能迎刃而解。
大数据真有如此神通吗? 回顾一段小历史对我们也许不无启示。
那是在 1936 年, 美国共和党人艾尔弗·兰登 (Alfred Landon) 与民主党人富兰克林·罗斯福 (Franklin D. Roosevelt) 竞选总统。 当时很有影响力的《文摘》杂志 (The Literary Digest) 决定搞一次超大规模的民意调查, 调查人数高达 1,000 万, 约为当时选民总数的 1/4, 最终收到的回复约有 240 万份, 对于民意调查来说可谓是 “大数据”——事实上, 哪怕在今天, 一些全国性民意调查的调查对象也只有几千。 通过对这组 “大数据” 的分析,《文摘》杂志预测兰登将以 55% 比 41% 的显著优势获胜。 但不久后揭晓的真正结果却是罗斯福以 61% 比 37% 的优势大胜。《文摘》杂志的 “大数据” 遭到了惨败。
当然, 那是陈年旧事了。 区区 240 万份回复作为民意调查是超大规模的, 从数据角度讲, 以今天的标准来衡量却实在小得可怜。 不过, 今天的 “大” 在几十年后也未必不会如昔日的 “小” 一样可怜。 那段小历史的真正启示在于: 数据已大到了统计误差可以忽略的地步, 结果却错得离谱。 这种类型的错误对于大数据是一种警示。
现在让我们回到当代。 2008 年 8 月, 大数据 “成功偶像” 之一的谷歌 (Google) 公司领衔在《自然》(Nature) 杂志上发表论文, 推介了一个如今被称为 “谷歌流感趋势” (Google Flu Trends) 的系统。 这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。 谷歌表示, 这一系统给出的估计不仅比美国疾病控制与预防中心 (Centers for Disease Control and Prevention——简称 CDC) 的数据更快速, 而且还有 “不依赖于理论” (theory-free) 的特点。
但是, 这个一度引起轰动的系统经过几年的运行后, 却引人注目地演示了大数据可能带来的陷阱。
2013 年 2 月,《自然》杂志资深记者巴特勒 (Declan Butler) 发表了一篇题为 “当谷歌弄错了流感” (When Google got flu wrong) 的文章, 指出 “谷歌流感趋势” 对 2012 年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的数据高了约一倍。 不仅如此, “谷歌流感趋势” 在 2008-2009 年间对瑞士、 德国、 比利时等国的流感类疾病患者数目的估计也都失过准。
大数据在这些例子中为什么会失败呢? 人们很快找到了原因。 比如《文摘》杂志对 1936 美国总统竞选预测的失败, 是因为该杂志的调查对象是从汽车注册资料及电话簿中选取的, 而汽车及电话在当时的美国尚未普及, 使得由此选出的调查对象缺乏代表性。 而谷歌对 2012 年底美国流感类疾病患者数目的估计失败, 则是因为媒体对那段时间的美国流感类疾病作了渲染, 使得很多非患者也进行了有关流感的搜索, 从而干扰了 “谷歌流感趋势” 的估计。 在统计学中, 这被称为系统误差 (systematic error), 只要存在这种误差, 数据量再大也无济于事。
当然, 原因一旦找到, 对结果进行修正也就不无可能了。 比如在有关流感的搜索中, 来自患者的搜索往往随疫情的爆发而迅速增加, 随疫情的缓慢结束而缓慢降低, 呈现出前后的不对称, 而媒体渲染引来的非患者的搜索则前后比较对称。 利用这一区别, 原则上可对结果进行校正。
但另一方面, 原因之所以很快找到, 是因为失败已成事实, 从而有了明确的分析对象, 在千变万化的大数据分析中要想每次都 “先发制人” 地避免失败却是极其困难的。 比如大数据分析对数据间的相关性情有独钟, 其所津津乐道的 “不依赖于理论” 的特点却在很大程度上排斥了对相关性的价值进行甄别——就如知名技术类刊物《连线》(Wired) 杂志的主编安德森 (Chris Anderson) 曾经宣称的: “只要有足够多数据, 数字自己就能说话” (with enough data, the numbers speak for themselves)。 数字也许是能说话, 但说出的未必都是有价值的话。 事实上, 未经甄别的相关性可谓处处是陷阱。 比如 2006-2011 年间, 美国的犯罪率和微软 IE 浏览器的市场占有率就明显相关 (同步下降), 但却是毫无价值的相关性——这是纽约大学 (New York University) 计算机教授戴维斯 (Ernest Davis) 举出的例子。 在统计学中, 这是所谓 “相关性不蕴含因果性” (correlation does not imply causation) 的一个例子。
无论是系统误差还是 “相关性不蕴含因果性”, 大数据的这些陷阱其实都是统计学家们熟知的。 只不过, 太急于赶路时, 人们有时会忘掉曾经走过的路。
作者:卢昌海,本文是替《科学画报》撰写的专栏短文,二零一四年九月二十九日写于纽约