如今,大多数人认为在大数据时代,人们总是有足够多的信息来建立强大的分析,然而事实并非如此。在某些情况下,即便是大量的数据也仍然不支持基本预测的正常进行。很多时候,我们并没有太多可以做到的事情,除了承认事实和坚持基本知识。这是大数据不能被用来预测的挑战,似乎也是一个不可能的悖论,但是却引来人们探讨为什么会是这样。

大009

情景1:大数据,小宇宙

举一个例子,当事物很少却有大量的数据时,很难找到有意义的模式。以一家航空公司的制造商为例,如今,每架飞机每小时运行产生上千兆字节的数据。诸如发动机在不同条件下操作,分析这些操作数据有很多好处。然而这对于一些分析行为来说可能很困难,如预测性维护。这是为什么?

人们意识到,即使是大的飞机制造商,每年也只能生产出几百架飞机。在考虑不同模型的时候,一年中可能只有几十个模型被生产出来。纵使飞机全部装满传感器,也很难开发有意义的预测部件故障模型。为什么?因为只有几十或几百架飞机,样品的数量太小。

特别是对于新飞机来说,这种情况还会加剧一些问题的出现(例如发动机或发动机部件之类的故障率较低)。因此,尽管可以在几年的操作中收集PB的数据,但是可能没有足够的飞机来创建足够大的事件池,从而构建真正有效的预测模型。当然,人们可以监测数据,寻找支持调查或干预的异常模式,但是这不是一个预测模型。

情景2:大数据,大宇宙,令人难以置信的罕见事件

还有其它情况,那就是有大量的人或事物需要分析大量的数据。然而,当事件非常罕见时,仍然可能遇到一种情况,即没有足够的样本来构建真正有效的预测模型。这并不是说,人们在分析数据和理解行为的各个方面没有很多价值。它只是说,有可能不能建立有效的预测模型。

让我们考虑一下计算机芯片的生产情况。全球每年产生数亿甚至数十亿片芯片,并且其速度在不断加快。几十年前,一千个或一万个的数量级缺陷可能是可以接受的。对于当今的芯片产品,其缺陷可能需要更接近百万级。曾经有客户提出,汽车行业面临着压力,需要将芯片缺陷率降低到十亿分之一或更低。这是为什么?主要是因为如果实现这种低错误率,并且人们可以假设导致有缺陷芯片存在的原因,则对于任何特定的一组原因,其发生任何缺陷的实例会变少,人们可能没有足够的样本来分析,但能够产生良好的模型以预测这些失败可能发生的时间和地点。人们考虑到芯片技术将随着时间的推移而过时,在短短几年内被更新的产品所替代,因此,这可能是一个持续时间比较久的问题。

不要绝望,做好准备

请记住,在这里提出的问题并不是什么规则,而只是样本。然而,随着人们收集数据的来源越来越多,企业开始考虑用越来越多的因素来分析业务,这些异常样本肯定会出现在组织内部。重要的是,人们只需要关注一个非常小的宇宙来分析,或者通过一个令人难以置信的稀有事件来分析。更糟糕的是,这种罕见事件是小宇宙中的。假设只考虑数据与业务问题相关的情况,而那些不相关的数据将永远不会增加价值,无论其数量多么大或多么小。

当人们不确定自己的数据是否是有效预测时,请确保在用于开发数据的复杂分析之前投入更多精力,其评估可能是可行的。在某些情况下,人们可能需要解决基本分析问题。然而,重要的是要记住,这种情况应该比没有任何数据来分析更好。

(中国IDC圈独家翻译,未经允许,禁止转载!)

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>