Lambda Architecture 概念

Mathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Lambda Architecture的概念,用于在大数据架构中,如何让real-time与batch job更好地结合起来,以达成对大数据的实时处理。

聊聊大数据Lambda架构

大数据平台中包括批量计算的Batch Layer和实时计算的Speed Layer,通过在一套平台中将批计算和流计算整合在一起。

例如使用Hadoop MapReduce、Spark进行批量数据的处理,使用Apache Storm、Spark Streaming 进行实时数据的处理。

这种架构在一定程度上解决了不同计算类型的问题,但是带来的问题是框架太多,会导致平台复杂度过高、运维成功高等。

Lambda架构的主要思想就是将大数据系统构建为多个层次,如下图所示:

聊聊大数据Lambda架构

我们来梳理一下他们是如何分工协助的:

首先new data作为整个数据系统的数据源头,Batch Layer作为数据的批处理层次对原始数据进行加工与处理,并且将处理的数据结果的Batch View输入到Serving Layer。(这里对应的是全量数据) Speed Layer对于实时增加的数据进行处理,生成对增量数据计算结果的Real-time View。(这里对应的是增量数据) 最终用户查询是通过Batch View与Real-time View相结合的形式将最终结果呈现出来。

基于Lambda架构,一旦数据通过Batch layer进入到Serving layer,在Real-time view中的相应结果就不再需要了。

小 结

Lambda架构结合了实时处理与批处理的结果,很好的反馈了查询需求,并且在速度和可靠性之间求取了平衡,具有足够的扩展性。理想状态下,所有的查询都可以定位成一个函数:

Query = Function(Data) 

但是,若数据达到相当大的一个级别(例如PB),且还需要支持实时查询时,就需要耗费非常庞大的资源。

而Lambda架构将数据和计算系统进行细分:

Query = Batch(Old_Data) + RealTime(New_Data) 

但是这种架构同样存在一些问题:需要运维两套不同的计算系统,并且合并查询结果,这一定程序上带来了复杂性的增加。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 09:58:00
大数据技术 运用大数据实现扶贫脱贫“精准”性
2019年中央一号文件将聚力精准施策,决战决胜脱贫攻坚作为一项硬任务,明确要求到2020年确保现行标准下,农村贫困人口实现脱贫、贫困县全部“摘帽”、解决区域性整体贫困。从 <详情>
2019-07-30 16:41:16
大数据技术 城云科技: 深耕城市大数据,打造“城市之云”
智能识别车牌,直接抬杆放行,“便捷泊车·先离场后付费”的落地让杭州1800余个开通场库平均单辆车离场缩短到2-3秒,仅占此前扫码付费模式的十分之一,甚至更少。 <详情>
2019-07-30 15:42:18
大数据技术 大数据赋能 云南省公安交通管理全面升级
高速事故易发路段发生车辆缓行,如何快速协调指派交警管理人员前往疏导,将事故防患于未然?夏季暴雨极端天气频发,各州市路网面临严峻考验,如何为车辆提供出行预警及建议 <详情>
2019-07-30 15:36:53
大数据技术 “大交通”“大数据”“旅游+扶贫” 贵州多项政策决战脱贫攻坚
7月21日至7月25日,由贵州省文化和旅游厅、中国旅游报社主办的“2019美丽中国行·贵州避暑采风行”活动在贵州进行,活动期间,贵州省文旅厅举行了交流座谈会,向由央媒、各 <详情>
2019-07-30 14:43:07
大数据技术 大数据助力移动污染源治理
近日,房山区利用过去一年监测得到的“大数据”,将一批超标率较高、超标次数较多的车辆列为重点监管对象,划入“黑名单”。如果不主动维修提升环保标准,这些车辆将在验车 <详情>