对于大数据,有观点认为有了足够大的数据集,分析的统计方法就是非必要的。我们将其称为“N等价于所有”的理论。而按这样的说法,抽样和推理都是浪费时间。拥有了所有的数据,就只需让数据说话。

大数据88

 

虽然“N等价于所有”的理论在短短几年前还是革命性的产物,作为正在上线的新颖而且更具潜在价值的分析方法,它很快就过时了。对于将所有数据对应一个给定主题这样的概念,物联网(IoT)分析和认知计算这对大数据的流行观点带来了挑战,而且这也要求那些分析专家重新对他们的做法进行评估。

“N等价于所有”的框架的早期形成是在2008年——大数据时代的开端。Chris Anderson在《连线》杂志中撰文谈及的例子提到,在广告和生物等领域,拍字节大小的数据存储可以让答案变得清晰。足够大的数据集意味着研究人员甚至不需要设定问题或是假设。这些数字说明了一切。但是当你在谈论新兴分析技术的时候,事情并不是这样的。

物联网不会将所有数据收入囊中

一说到物联网,会很自然地将曾经所有的数据排除在外。它包括每秒钟刷新的源源不断传入的信息流。它会告诉你时刻发生的事情,而不是寻求获得大量关键数据来回答可溯源问题。

最有效的物联网策略可以从传统大数据的角度识别技术有何不同。对于物联网来说,边缘分析已经成为关键组成部分。这包括了在随着数据创建用于计算的边缘网络的网络设备和传感器中的统计算法,对于要将哪些数据送回中心数据库,要抛弃哪些数据,它们会进行决策。在这种情况下,更多的数据只会是负担。你永远不会想要所有的数据。我们会使用统计方法来决定使用哪些数据。

认知计算带来不同的挑战

由认知计算带来的对主流大数据理论的挑战是有所不同的。在认知计算中,不论我们是否在谈论人工智能(AI)或深度学习,或者你是否能有足够的数据是没有意义的。算法通过经验加以改进,而且它们越是获得更多的训练,表现会越出色。

谷歌的围棋人工智能算法AlphaGo(阿尔法狗)通过提取人类玩家完成的3000万棋局走法,学会了玩棋类游戏。这是作为该算法的初步训练,但这还不够。接着它跟自己下了数千局棋,并对每场比赛进行改进。最终,它改进到能够击败该棋类游戏的每个人类大师。

但是,从理论上讲,该算法还是能够通过不断学习来进行自身优化。你永远不能说它已经学会了玩儿这种游戏的所有内容。这同样适用于像语音识别,计算机视觉和自然语言处理之类的其他深度学习实践。人类是认知计算算法最为接近的模拟。没有理由认为一种算法能够获得所有需要的数据来最优地执行这些任务。

是时候重新考虑大数据的性质了

曾经有段时间“N等价于所有”的大数据理论被认为是终极的价值主张。调查整个数据集的能力似乎为提出特定问题和接收特定的答案提供了功能,而不必依赖必须涉及一定程度上不确定性的统计方法。

但是,越来越多的企业真正的价值和他们在市场上逐渐面临差异将来自于这些新兴的分析趋势。那些想要在业界保持领先的企业需要对“什么是大数据”进行重新审视。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>