b0132433a3bc623fee4e501fa81d5c3e

传统的样本分析师们都很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。

在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。

在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。

尤其是当我们收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问题。

大数据时代要求我们重新审视精确性的优势。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。

执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。

如今,我们已生活在信息时代,我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。

在华盛顿州布莱恩市的英国石油公司切利博因特炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。酷热的恶劣环境和电气设备的存在有时会对感应器读书有所影响,形成错误的数据。

但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这些都是无法发现也无法防止的。

有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。

大数据不仅不再让我们期待精确性,也让我们无法实现精确性。

然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。

值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。

如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。

错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。

因为拥有更大数据量所能带来的商业利益远远超过一点精确性,所以通常我们不会再花大力气去提升数据的精确性。

这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。

相关阅读:

大数据处理的未来:边缘计算

听我说,大数据需要学什么?

大数据到底有多“火”

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-10-11 13:38:11
云资讯 如何将数据分析带到云端
数据,更具体地说是对数据的分析,是这一转变的基础。金融服务公司是最早意识到,更快地获取更深入、更丰富的见解,可以使其比同行具有显著竞争优势的企业之一,尤其是在高 <详情>
2022-08-30 09:41:47
云资讯 亚马逊云科技三种数据分析服务的无服务器功能正式可用
Amazon EMR、Amazon MSK 和 Amazon Redshift的无服务器功能可帮助客户大规模分析数据,而无需配置、扩展或管理底层基础设施 <详情>
2021-12-28 15:10:26
大数据资讯 2022年数据分析的6大趋势
企业数据分析有两种方法。首先是从CRM和ERP等业务应用程序中获取数据,并将其导入数据仓库以提供给BI工具。现在,这些数据仓库正在迁移到云端,采用Snowflake等技术。 <详情>
2021-12-13 18:06:46
大数据应用 建立数据策略的六个关键组成部分
数据策略包括一套在企业中使用数据的长期目标,以及支持这些目标的政策和应用实践。 <详情>
2021-11-29 10:06:02
大数据技术 干货分享:数据分析的6大基本步骤
数据分析就是运用恰当的分析方法,分析所收集的海量资料,并运用高效的分析工具将之归类、归纳,从中提炼出最有价值的资料,总结形成有效结论,挖掘数据大价值的过程。 <详情>