当今时代,数据已经成为我们经营业务的核心手段。事实上,据全球市场情报公司IDC预计,到2020年,全球花费在数据分析项目上的支出将达到2743亿美元。然而,其中的大部分钱并没有得到合理地利用。据高德纳咨询公司(Gartner)的分析师尼克?赫尔德克的估算,高达85%的大数据项目是失败的。 问题的重点在于,出现在电脑屏幕上的数字具有一种特殊的权威感。一旦数据通过大量的数据库被提取出来,并通过复杂的分析软件进行分析,我们就几乎不再会去关心这些数据究竟来自哪里,它们究竟是如何被修正的,更不会去关心它是否真正适用于我们的研究目标了。
因此,实际上,要想从数据中得到有用的答案,我们便不能只看到它表面的数据值。我们需要学会如何提出更加深层的问题。我们尤其需要知道这些数据是如何得出的,我们用了什么样的模型来分析它们,以及在这一分析过程中究竟遗漏了什么。最重要的是,我们需要超越仅仅使用数据来优化操作程序的做法,并学会利用数据来构思新的生产可能性。
我们要问的第一个问题是:
一、数据是如何得出的?
据说,数据一词是“奇闻轶事”的复数形式。英语中有一句俚语,叫“很多奇闻轶事聚在一起就成了数据”。的确,真实世界的各种事件,如交易记录、诊断结果和其他诸多相关信息,都被一一记录下来,并存储在大型服务器之中,这就是数据。但几乎没人会关注这些数据究竟来自哪里,因此,非常不幸的是,我们收集到的数据的质量和处理方式可能会有很大差别。事实的确如此,高德纳咨询公司最近的一项研究揭示出,由于收集到的数据质量太差,每个公司平均损失竟然高达1500万美元。 一般来说,数据的准确性会受到人为错误的影响,例如当低工资和动力不足的零售职员检查库存时,他们收集到的数据就往往并不准确。然而,即使数据收集过程是自动化的,也仍然会有很多的错误来源,比如手机信号塔的间歇性停电就会造成错误;在金融交易清算过程中运用自动化的信息收集方式同样可能产生错误。 质量过差的数据和用于错误语境的数据可能比根本没有数据更为糟糕。事实上,一项研究发现,65%的零售商库存数据是不准确的。而自欧盟通过并发行了严格的GDPR(通用数据保护条例)数据标准以来,另一个日益重要的问题逐渐浮现:在收集数据时是否得到当事人适当的同意。 因此,不要简单地认为你所拥有的数据是准确的和高质量的。你首先必须关心它是从哪里得来的,以及它是如何维护的。我们越来越需要像做金融交易一样,小心谨慎地审查我们的数据处理方式。
二、数据是如何分析的?
即使数据得到了准确和良好的维护,数据分析模型的质量也会有很大差异。一般而言,各种数据分析模型是通过开源平台(如GitHub)组合在一起,并要为特定的分析任务进行重新的组合部署。但是,过不了多久,人们就忘记该模型究竟来自何处,也不再关心它究竟是如何评估特定的数据集合的了。 类似于这样的失误要比你所能想象到的更为常见,并且有可能造成严重的损失。我们可以回顾一下如下案例:曾经有两位著名的经济学家发表了一份工作报告,警告说美国债务即将面临一个关键的节点。他们的工作引发了一场政治风暴,但事实证明,他们犯了一个简单的Excel错误,导致他们夸大了债务对GDP的影响。这就是对数据处理方式的失误造成的。 随着数据处理模型变得越来越复杂,并纳入了更多的数据来源,我们也越来越能看到,在数据模型的训练上不断出现更为严重的问题。最常见的错误之一是过度拟合,这大体意味着,用来创建模型的变量越多,模型本身就越难变得普遍有效。而在某些情况下,过量的数据会导致数据泄漏,在数据泄露中,训练数据和测试数据搅和在一起了。 这些类型的错误甚至会困扰最为先进的公司。对此我们仅仅举出两个最为突出的例子就足够了:亚马逊和谷歌,最近与模型偏见有关的丑闻被高度曝光了。当我们处理数据时,我们需要不断地向我们的模型提出难题:它们适合于我们的使用目的吗?它们是否考虑到了正确的因素?模型所输出的数据是否真实地反映现实世界中发生的事情?
三、数据无法告诉我们什么?
数据模型,就像人类一样,它们总是倾向于根据最可用的信息来做出判断。但是,有时你所缺失的数据往往会像你所拥有的数据一样影响你的决策。我们通常将这种类型的可用性偏差与人类决策联系起来,但人类设计者往往将这种偏差传递给自动化系统。 例如,在金融业中,那些拥有大量信贷历史的人往往比那些没有信贷历史的人更容易获得信贷。后者通常被称为“瘦档案”客户,他们发现自己很难买车,很难租赁房屋,也很难申请到信用卡。(我们中的一员,一位名叫格雷格的同事,在海外生活15年后回到美国时,就曾亲身经历了这个问题)。 然而,缺少信贷历史并不必然表明信用风险很高。而信贷公司最终往往仅仅因为缺乏相关数据而放弃潜在的盈利客户。最近,益百利公司开始通过应用Boost程序来解决这一难题,该程序通过查询消费者的日常支付活动来使消费者获得信用评分,比如定期的电信充值和公共事业支付等等。迄今为止,已有数百万人在该程序上登记注册了。 因此,要问一问你的数据模型可能遗漏哪些方面,这个问题是极其重要的。如果你正在管理你所测量的数据,你就要确保你所测得的数据真实地反映了现实世界,而不只是一些最容易收集的僵死的数据。
四、我们如何利用数据重新设计产品和商业模式?
在过去的十年里,我们已经了解了数据如何帮助我们更有效地管理我们的业务。智能化地使用数据使我们能够进行自动化处理,预测我们的机器何时需要维护,并且更好地为我们的客户服务。正是数据使得亚马逊能够提供包裹当日达服务。 数据也可以成为产品本身的重要组成部分。我们可以举一个著名的例子,Netflix长期以来一直使用智能数据分析来花更少的成本创建更好的项目。这使得Netflix在与对手——如迪士尼和华纳传媒——竞争时获得了一个重大的优势。 然而,真正令人振奋的是,你可以用数据来完全重新构想你的业务模式。在Eric工作的益百利公司,他们已经能够利用云技术,从只以信用报告的形式提供处理过的数据,转变为为客户提供实时访问报告所依据的更细粒度数据的服务。这看似是一个微不足道的转变,但它已经成为益百利公司业务增长最快的部分之一。 有人说数据是新的石油,但实际上,数据要比石油更有价值。现在,我们必须开始转变观念,不能仅仅将数据视作一种被动的资产类别。如果使用得当,数据甚至能够提供一种真实的竞争优势,并产生一种全新的业务方向。然而,要做到这一点,你不能仅仅从寻找答案开始。你必须学会如何提出新的问题。