到2025年,联网设备的数量预计将增加两倍。相对的,物联网也加入了重要的大数据源行列,这使得数据从业者可能将注意力转向物联网大数据中。
物联网大数据不同于其他大数据类型。为了形成一个清晰的画面,想象一个不断生成数据的传感器网络。例如在制造中,它可以是某一特定机械零件的温度值,以及振动、润滑、湿度、压力等。因此,物联网大数据是机器生成的,而不是人类创造的。它主要表示数字流,而不是文本块。
现在,假设每个传感器每秒产生5次测量,总体已经安装了1000个传感器。而且这种高容量的数据是不断流动的(顺便说一下,这种数据有一个特殊的名称——流数据)。当然,纯数据收集并不是最终目标,需要的是有价值的见解,其中一些见解尽可能接近实时。如果压力突然下降到临界水平,肯定是想在第一时间或者即使性得知,如果时间有所延长,到那时,维护团队可能已经在尝试修复损坏的机器单元。
物联网大数据的存储,预处理和分析
当然,最终业务目标总是为解决方案的体系结构奠定基础。然而,物联网大数据的性质在数据存储、预处理和分析方面留下了印记,所以,让我们需要仔细看看每个进程的特定特性。
物联网大数据存储
由于必须处理大量以不同格式快速到达的结构化和非结构化数据,传统的数据仓库已经无法满足需求,需要一个数据湖和一个大数据仓库。数据会分成几个区域,比如着陆区(其原始格式的原始数据),暂存区(基本清洁和过滤后的数据应用和原始数据从其他数据源),以及分析沙箱(数据科学探索活动)。需要一个大数据仓库来从数据湖中提取数据,进行转换,并以更有组织的方式存储。
物联网大数据预处理
决定是存储原始数据还是已经预处理的数据非常重要。事实上,正确回答这个问题是物联网大数据面临的挑战之一。让我们回到我们的例子中,用一个传感器每秒传输5个温度值。一种选择是存储所有5个读数,而另一种选择是只存储一个值,例如它们的平均值、中值、模式,每个聚合周期为1秒。为了清楚地可视化这种方法对所需存储容量的影响,将传感器的总数量乘以它们的预期运行时间,然后乘以它们的读取频率。
如果计划中有一部分是实时洞察,那么仍然可以在不将所有读数发送到数据存储的情况下获得实时警报。例如,系统能够摄取整个数据流,并且已经设置了触发即时警报的临界阈值或偏差。不过,只有一些经过过滤或压缩的数据被发送到数据存储。
避免数据丢失的方法
此外,也有必要提前考虑一下,如果由于某种原因,比如由于传感器暂时故障或与网关的连接中断,读数流将会停止。
这里有两种方法:
使用可靠的鲁棒算法来处理数据遗漏。
例如,使用多个冗余传感器来测量相同的参数。一方面,这增加了可靠性:如果一个传感器发生故障,其他传感器将继续发送读数。另一方面,这种方法需要更复杂的分析,因为传感器可能会生成稍微不同的值,这些值应该由分析算法处理。
物联网大数据分析
物联网大数据需要两种类型的分析:批处理和流处理。批量分析在所有大数据类型中都是固有的,物联网大数据也不例外。它广泛用于对捕获的数据进行复杂分析,以确定趋势、相关性、模式和依赖关系。批处理分析涉及应用于历史数据的复杂算法和统计模型。
流媒体分析完美地涵盖了物联网大数据的所有细节。它旨在处理在小时间间隔内生成的高速数据流,并提供近乎实时的见解。对于不同的系统,这个“实时”参数会有所不同。在某些情况下,它可以用毫秒来测量,而在另一些情况下,它可以用几分钟来测量。为了尽可能快地获得洞察,可以在系统边缘甚至数据流处理器中分析捕获的数据。
物联网大数据本质上是机器生成的、大容量的、流媒体的、特定位置的、特定时间的。大数据咨询实践证明,在设计和实现物联网解决方案之前考虑这些特性是多么重要。确信,不会希望在短短几个月内耗尽存储空间,或者仅仅因为解决方案不支持流分析而错过实时洞察,或者面临任何其他破坏物联网解决方案健壮性的问题。为了避免这种情况,有必要明确短期和长期业务需求,并从多个选项中仔细选择最优的大数据架构和技术堆栈。
相关阅读:
亚马逊(AMZN.US)与微软(MSFT.US)竞争美国防部云计算服务 价值100亿美元
凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。