通常人们认为Spark的性能和速度全面优于MapReduce,但最新的对决显示MapReduce在某些方面也有胜场,而且数据规模越大优势越大。

Apache Spark是当今最火爆的大数据处理框架。通常人们认为Spark的性能和速度全面优于MapReduce,且更加容易使用,而且Spark已经拥有一个庞大的用户和贡献者社区,这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求,大 有取代MapReduce的趋势。

2

关于Spark和Mapreduce的性能PK已经在业界进行多次,不少人认为Spark仅仅是在内存计算环境比Mapreduce表现出色,但也有公司认为Spark全面压倒Mapreduce,例如2014年Spark商业化公司Databrick在磁盘环境给Spark做了GraySort跑分测试(下图),显示Spark的磁盘性能也同样彪悍。

那么,Spark真的是全面超越MapReduce了吗?

3

近日,IBM中国研究中心发布的一篇 论文 中的比测试显示,在Word Count、K-means和PageRank三类大数据处理任务中,Spark比MapReduce分别快2.5倍、5倍和5倍。这得益于的RDD缓存减少了CPU和磁盘开销。

但是在排序任务(Sort)方面,MapReduce的执行速度是Spark的两倍(两者的速度差异随着数据集规模的增加逐渐拉大,数据集越大,MapReduce的优势越明显,上图),因为MapReduce混编数据的执行模型比Spark的效率高很多。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-04-11 11:16:48
国际资讯 新西兰电信公司Spark斥资2.21亿美元用于数据中心和5G新计划
Spark主席史密斯在当地时间5日的简报会上公布了新战略,他表示 Spark 在过去三年中通过新技术和简化实现了增长,现在能够为未来的扩张进行投资。 <详情>
2019-11-14 15:13:38
云技术 Spark SQL性能提升17.7倍是如何实现的?
在互联网运营商等大规模、超大规模用户中,Spark是最受欢迎的大数据系统,Spark对于内存依赖性很强,所以当负载提高时,硬件平台的内存挑战就会十分明显 <详情>
2019-08-27 15:38:57
大数据资讯 Hive和Spark究竟是凭借什么优势而大获成功?
Hive和Spark凭借其在处理大规模数据方面的优势大获成功,换句话说,它们是做大数据分析的。本文重点阐述这两种产品的发展史和各种特性,通过对其能力的比较,来说明这两个 <详情>
2019-07-22 16:47:56
大数据技术 Hadoop与 Spark - 选择正确的大数据框架
我们被各方的数据所包围。随着数据每两年增加一倍,数字世界正在快速追逐物理世界。据估计,到2020年,数字宇宙将达到44个zettabytes - 与宇宙中的恒星一样多的数字位。 <详情>
2019-07-17 16:42:54
大数据应用 Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性、易用性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高。我总结,具体表现在如下几个方面 <详情>