Hadoop生态系统中,如果存在一个领域是竞争最激烈的,那一定是SQL on Hadoop!

Apache Hive可以说是最早的SQL on Hadoop产品,但是由于原始版本SQL结果响应速度太慢,各个厂商开始对其进行优化,与此同时开始寻找更好的解决办法。

对Hive的优化主要集中在两个方面:计算引擎与数据存储格式。为了获得更高的性能和更快的交互,在计算引擎方面,放弃MapReduce采用Tez、Spark或特定的引擎;在数据存储格式方面,使用列存储格式(如ORC、Parquet),因为面向列的存储格式更适合统计分析型的场景。

当前Hive支持多引擎:MapReduce、Tez、Spark,也支持多存储格式:ORC、Parquet等。

当然,除了Hive我们还有更多的选择:

Apache Hive

Facebook Presto (Facebook用来替换Hive)

Cloudera Impala (使用C++开发)

Apache Drill

Apache Kylin

Apache Tajo

Apache Phoenix (基于HBase)

Apache Spark-SQL

Apache Storm-SQL (流处理统计分析,开发中)

上面罗列的SQL on Hadoop产品适用于不同的场景,将所有的进行对比没有意义。如果只是打算用来替换旧版本的Hive,从性能角度推荐的选择有Presto、Impala,如果刚好你热衷于Java,那就选择Presto吧。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-07 11:35:00
大数据技术 ClickHouse vs StarRocks选型对比
一般来说,ClickHouse适合于维度变化较少的拼宽表的场景,StarRocks不仅在单表的测试中有着更出色的表现,在多表关联的场景具有更大的优势。 <详情>
2021-08-25 11:24:23
大数据资讯 Hadoop大数据“存算分离”,柏科数据 ISCloud分布式存储"提质增效"
业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过 <详情>
2021-05-07 11:11:30
云资讯 随着云计算等颠覆性技术的出现Hadoop将会过时
Hadoop是一个开源软件框架,它在近十年前开始流行。 <详情>
2020-11-26 09:44:25
大数据技术 学大数据需要具备什么基础和知识点?
学大数据基础包含涵盖大数据体系中的技术点,包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soar <详情>
2020-08-18 15:10:27
大数据技术 大数据不再主流受欢迎,然而Hadoop仍然至关重要
如今,开源分析已牢固地成为企业软件堆栈的一部分,“大数据”一词似乎已经过时,并且Hadoop已成为死法已成为人们公认的民间传说。不过,这太夸张了;尽管Hadoop不再炙手可 <详情>