Lambda Architecture 概念

Mathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Lambda Architecture的概念,用于在大数据架构中,如何让real-time与batch job更好地结合起来,以达成对大数据的实时处理。

聊聊大数据Lambda架构

大数据平台中包括批量计算的Batch Layer和实时计算的Speed Layer,通过在一套平台中将批计算和流计算整合在一起。

例如使用Hadoop MapReduce、Spark进行批量数据的处理,使用Apache Storm、Spark Streaming 进行实时数据的处理。

这种架构在一定程度上解决了不同计算类型的问题,但是带来的问题是框架太多,会导致平台复杂度过高、运维成功高等。

Lambda架构的主要思想就是将大数据系统构建为多个层次,如下图所示:

聊聊大数据Lambda架构

我们来梳理一下他们是如何分工协助的:

首先new data作为整个数据系统的数据源头,Batch Layer作为数据的批处理层次对原始数据进行加工与处理,并且将处理的数据结果的Batch View输入到Serving Layer。(这里对应的是全量数据) Speed Layer对于实时增加的数据进行处理,生成对增量数据计算结果的Real-time View。(这里对应的是增量数据) 最终用户查询是通过Batch View与Real-time View相结合的形式将最终结果呈现出来。

基于Lambda架构,一旦数据通过Batch layer进入到Serving layer,在Real-time view中的相应结果就不再需要了。

小 结

Lambda架构结合了实时处理与批处理的结果,很好的反馈了查询需求,并且在速度和可靠性之间求取了平衡,具有足够的扩展性。理想状态下,所有的查询都可以定位成一个函数:

Query = Function(Data) 

但是,若数据达到相当大的一个级别(例如PB),且还需要支持实时查询时,就需要耗费非常庞大的资源。

而Lambda架构将数据和计算系统进行细分:

Query = Batch(Old_Data) + RealTime(New_Data) 

但是这种架构同样存在一些问题:需要运维两套不同的计算系统,并且合并查询结果,这一定程序上带来了复杂性的增加。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-06-11 11:59:14
大数据资讯 联合国儿童基金会如何利用大数据技术弥补教育鸿沟?
毫无疑问,教育在我们人类的成长与发展过程中发挥着重要作用。我们适应周边世界所需要的知识,以及日常生活中的技能,都由教育负责提供。 <详情>
2019-06-08 21:53:24
大数据技术 青海用大数据为游客精准“画像”
夏日的青海,青海湖碧波荡漾,天空之镜平静如水,全国各地的游客源源地不断涌入青海湖、茶卡盐湖、塔尔寺等景区,青海旅游旺季大幕已经拉开。这些游客来自哪里?去往哪些景 <详情>
2019-06-05 14:55:43
大数据资讯 国家统计局将与联合国合作设立大数据研究所
6月3日,中国-联合国统计能力开发信托基金项目十周年成果总结会在上海举行。国家统计局和联合国经济和社会事务部(UNDESA)签订统计合作意向书,双方将在杭州建立中国国家 <详情>
2019-06-05 09:49:31
大数据技术 大数据,这座“钻石矿”挖不完
全球大数据发展第五次进入“贵州时间”,一年一度的中国国际大数据产业博览会(数博会)日前举行。本届数博会以“创新发展,数说未来”为主题,吸引了61个国家及地区外宾参 <详情>
2019-06-04 09:26:10
大数据技术 大数据驱动制造业智能转型
以大数据、云计算等为代表的新一轮科技革命和产业变革正在世界范围内孕育兴起,一国的竞争力已经部分体现为拥有数据的规模、质量,以及运用数据的能力。 <详情>