利用大数据预测，先要避免“冷启动偏差”！｜数据科普_大数据技术

作为商业工具，数据及其应用的价值早已成为社会共识，我们逐渐进入了数据的“成熟期”。

这个阶段的典型特征是——讨论数据的声音不是越来越多，而是越来越理性。这意味着市场的成熟度在变大，与之相应的，数据作为一种工具，在应用层面也愈发完善。

往往在这样的时刻，工具化的娴熟会带来认知的另一层壁垒：人们开始淡化对数据边界的思考——究竟什么结论是数据真正所能达到的？

从即日起，CTR洞察推出“CTR数据科普系列”内容，我们会关注一切与数据有关的话题，并为你一一拆解现象之下的数据内核，为大家解惑。

新年伊始，很多企业都在制定新一年的战略和计划，这其中当然离不开对数据的运用。

对此，有很多决策者会说：我们要尽量掌握更大量级和更多维度的数据资源，来更准确地定义消费者和受众。

这背后其实暗含着这样的理解：大规模地运用数据，可以提升结论的可靠性。

换言之，如果数据的量级足够大，覆盖的范围足够广，通过分析它们所得出的结论就会更趋近于事实。

那么，这是不是一种准确的认知呢？我们在这里先打上一个问号。

1、“冷启动偏差”

很多人在应用数据的时候，会忽略一个事实：大数据分析是典型的单纯从数据出发的分析。

也就是说，我们往往是通过不带有目的性地掌握了某些数据事实（注意，是否带有目的性地搜集数据是一个重要的区分点），再据此去进行一系列相关的分析，这个过程被形象地称为数据的“冷启动”。但是这样的做法却很容易出现问题。

有一个典型的案例：Google曾经基于其所掌握的几十亿条检索记录，利用尚未公开的某些算法模型，构造出一个“流感预测指数”。

他们的前提假设是，通过用户搜索流感关键词得到的大数据必定包含流感疾病的全数据。

工程师们认为，这些数据可以完全取代传统数据抽样统计，并把“采集到的用户搜索”数据与 “某流感疫情涉及的人群”这个总体对等。

但遗憾的是，其对美国流感趋势开展的预测远远高于美国CDC（美国疾病控制与预防中心）公布的结果。

很多人不明白，流感搜索大数据必定包含流感全数据的设定究竟出了什么问题？

从统计学的角度来看，这种基于搜索关键词预测流感发病率的方法，只满足了数据的相关性，而缺少了重要的一环——对数据之间因果性的考察，或者说，缺乏对样本背景先验分布的掌握。

什么是先验分布呢？

可以这样做一个简单的理解：在进行一项调查之前，研究人员需要对研究本身所涉及的样本属性进行基本的设定，并在此基础上进行抽样。

举个例子，如果我们想预测一个新品未来可能形成的销售情况，按照统计学的方法，我们应该先根据产品的属性等基本要素设计这次研究所应该覆盖的人群，然后再进行相关的抽样调查和数据分析。而不是采取相反的路径——先找到已有的数据，再按照需求进行筛选。

统计学中的贝叶斯学派认为，在任何统计推断问题中，必须对调查总体规定一个先验分布，它是在进行推断时不可或缺的一个要素。

缺少对数据先验分布的认知，很容易导致预测分析偏离实际情况，并且有很多案例已经证明，这种偏离会真实地反应在调查结果上。

这是再庞大的数据量也无力解决的问题，而且，通过优化算法也没办法真正解决整体性的系统误差。

2、看不见的“总体”

——海量数据就是总体吗？

上面的例子告诉我们，存在一个比海量数据更宏观、更根本的概念，那就是——“总体”。

在统计学中，总体是指所要研究对象的全体。它是根据一定研究目的而规定的所要调查对象的全体所组成的集合。技术的进步创造了海量数据，这很容易给人造成一种海量数据即可以代表总体的假象。

如果说大数据是树木，那么总体就是它背后的森林。

为了避免“只见树木，不见森林”的困境，就需要在研究启动前就有效解决什么才是研究总体的问题。

统计学告诉我们，在某个专项领域的研究中，我们无法在不进行研究预设的情况下，将任何单一渠道获得的已知数据等同于包含了丰富先验分布的那个复杂的“总体”本身。不管这个数据的量级有多庞大，即便是互联网巨头们覆盖十亿级用户的超级应用生态也是如此。

所以，如何构建一个科学可靠的“总体”，并基于这个总体池进行抽样设计以及相关的调查和推断，挖掘消费者潜在的行为特征和未知的行为模式，从而给企业提供市场决策支持就非常有意义。

在大数据环境中，电信运营商、大型平台和调研公司自有的在线样组等都各自掌握了巨量的用户资源。这样的状况之下，该如何去科学地融合这些数据，更有效地覆盖到我们所希望达到的“总体”呢？

3、打造科学的总体

——数据融合可能实现吗？

现在，市场研究行业中对数据融合的讨论很多，CTR的做法是：通过构建一个企业自有的大数据抽样框的方式，来解决每个企业不同的问题，而绝不是在某一个特定的数据集合中寻求所有问题的答案。

所谓大数据抽样框是指，以网民总体结构（CNNIC中国互联网发展情况公报）为参照系，同时融合多渠道数据，自主构建起来一个科学的目标总体。

这样的做法可以有效提高对目标总体的覆盖程度，准确反映目标总体的特征属性。由此得到的数据也会具有更高的样本代表性和统计推断的准确性。

那么，融合调研数据究竟是否可靠呢？

一般来讲我们可以采用大样本随机对照研究的方法，来科学地评估调研数据的可靠性。

简单来说，就是在各渠道原始样本中重新随机抽取试验样本和对照样本这两组样本，尽可能消除系统误差和偏倚，再利用统计学方法对两组数据进行显著性差异检验。

如果结论显示，两组数据间不存在显著差异，就能说明融合调研数据具有可靠性。当然，研究公司也会借助过往历史积累的数据以及市场经验数据进行对比研究，分析评估调研数据质量。

下图以某阅读类调研项目利用大数据端和自有在线样组两个渠道的融合调研数据为例，做的对比分析：

当然除了可靠性，稳定性也是调研数据质量非常重要的评价指标。我们可以将数据拆分成不同的百分比区间来考察稳定性指标：如果在各个百分比区间里，调查数据的误差比率相差不大，那么就意味着数据的稳定性是有保障的。

以CTR执行的某酒类消费者调研项目为例，通过大数据抽样框，项目融合了各渠道样本量共计1215个，问卷中233个变量平均值的标准误差均在1.5%以下，中位数为1.1%。可以看出，这项融合调研数据的稳定性是非常高的。

由此可见，大数据抽样框的方法，的确可以有效解决大数据环境下，科学覆盖调研总体的问题。

4、总结

——“好”数据胜过“大”数据

每一个和数据打交道的人都应该牢记：大数据永远不等同于全数据。这意味着大数据分析必须建立在科学的研究方法基础之上，而不能随意僭越。

“好”数据胜过“大”数据，当我们恰当的收集并使用数据后，数据带来的价值往往令人惊喜。而反之，通过不正确的方法收集到的数据越多，花费高昂成本得出的结论可能误导客户、误导消费者，令他们形成错误的认知、做出错误的决策。

延伸阅读：