如今,大多数人认为在大数据时代,人们总是有足够多的信息来建立强大的分析,然而事实并非如此。在某些情况下,即便是大量的数据也仍然不支持基本预测的正常进行。很多时候,我们并没有太多可以做到的事情,除了承认事实和坚持基本知识。这是大数据不能被用来预测的挑战,似乎也是一个不可能的悖论,但是却引来人们探讨为什么会是这样。

大009

情景1:大数据,小宇宙

举一个例子,当事物很少却有大量的数据时,很难找到有意义的模式。以一家航空公司的制造商为例,如今,每架飞机每小时运行产生上千兆字节的数据。诸如发动机在不同条件下操作,分析这些操作数据有很多好处。然而这对于一些分析行为来说可能很困难,如预测性维护。这是为什么?

人们意识到,即使是最大的飞机制造商,每年也只能生产出几百架飞机。在考虑不同模型的时候,一年中可能只有几十个模型被生产出来。纵使飞机全部装满传感器,也很难开发有意义的预测部件故障模型。为什么?因为只有几十或几百架飞机,样品的数量太小。

特别是对于新飞机来说,这种情况还会加剧一些问题的出现(例如发动机或发动机部件之类的故障率较低)。因此,尽管可以在几年的操作中收集PB的数据,但是可能没有足够的飞机来创建足够大的事件池,从而构建真正有效的预测模型。当然,人们可以监测数据,寻找支持调查或干预的异常模式,但是这不是一个预测模型。

情景2:大数据,大宇宙,令人难以置信的罕见事件

还有其它情况,那就是有大量的人或事物需要分析大量的数据。然而,当事件非常罕见时,仍然可能遇到一种情况,即没有足够的样本来构建真正有效的预测模型。这并不是说,人们在分析数据和理解行为的各个方面没有很多价值。它只是说,有可能不能建立有效的预测模型。

让我们考虑一下计算机芯片的生产情况。全球每年产生数亿甚至数十亿片芯片,并且其速度在不断加快。几十年前,一千个或一万个的数量级缺陷可能是可以接受的。对于当今的芯片产品,其缺陷可能需要更接近百万级。曾经有客户提出,汽车行业面临着压力,需要将芯片缺陷率降低到十亿分之一或更低。这是为什么?主要是因为如果实现这种低错误率,并且人们可以假设导致有缺陷芯片存在的原因,则对于任何特定的一组原因,其发生任何缺陷的实例会变少,人们可能没有足够的样本来分析,但能够产生良好的模型以预测这些失败可能发生的时间和地点。人们考虑到芯片技术将随着时间的推移而过时,在短短几年内被更新的产品所替代,因此,这可能是一个持续时间比较久的问题。

不要绝望,做好准备

请记住,在这里提出的问题并不是什么规则,而只是样本。然而,随着人们收集数据的来源越来越多,企业开始考虑用越来越多的因素来分析业务,这些异常样本肯定会出现在组织内部。重要的是,人们只需要关注一个非常小的宇宙来分析,或者通过一个令人难以置信的稀有事件来分析。更糟糕的是,这种罕见事件是小宇宙中的。假设只考虑数据与业务问题相关的情况,而那些不相关的数据将永远不会增加价值,无论其数量多么大或多么小。

当人们不确定自己的数据是否是有效预测时,请确保在用于开发数据的复杂分析之前投入更多精力,其评估可能是可行的。在某些情况下,人们可能需要解决基本分析问题。然而,重要的是要记住,这种情况应该比没有任何数据来分析更好。

(中国IDC圈独家翻译,未经允许,禁止转载!)

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-11-15 13:43:05
大数据应用 如何克服大数据人才招聘的挑战
像大多数商业事务一样,在大数据相关事务方面取得成功取决于企业的人力资本。对于所有关于机器学习和支配现代市场的算法的讨论,人们仍然是当今商业世界的中心。那么管理者 <详情>
2017-11-15 09:39:00
大数据资讯 当前和未来重要的大数据优势
据预测,以目前的速度发展,到2020年大数据的市场规模将超过2030亿美元。2017年即将结束,随着需求的增长,数据的重点也在以同样的速度增长。今年以来,大数据的主要趋势围 <详情>
2017-11-15 09:28:52
大数据资讯 大数据时代我们需要个人信息保护法吗?
当前,个人信息频繁泄露、大数据安全顶层设计缺失、大数据交易安全第三方监督缺位,在这样的背景下,出台个人信息保护法将成为保护网络信息安全的重要措施。 <详情>
2017-11-14 17:41:00
大数据资讯 滴滴美研升级扩容,全力加载大数据AI人才
今年3月,滴滴宣布在加州硅谷成立滴滴美国研究院,以吸引顶尖科研人才。滴滴美研将研究重点放在大数据安全和智能驾驶两大核心领域。 <详情>
2017-11-14 09:58:27
大数据资讯 大数据、人工智能、机器人的血缘关系?
大数据、人工智能(AI)、机器人、算法、深度学习、物联网、传感器……,这些名词似乎每天都会看到或听到,当人们还搞不清楚是什么时,媒体已不断报导人类的工作将很快被取 <详情>