之前我们提到大数据的时候就会提到Hadoop,Hadoop是大数据的基础框架,是大数据技术的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一个开源组件。但是最近好像有点不一样了。

Hadoop三巨头

曾经的三巨头之一MapR向加州就业发展局提交文件,称如果找不到新的投资人,公司将裁员 122 人,并关闭位于硅谷的总部公司。这曾经可是估值10亿美元的Hadoop发行版厂商啊,说跪就要跪了,而另外两巨头则是抱团取暖,当然这也不能完全说明Hadoop面临着一些问题。

2003年,依据Google发表的三篇论文将Google的三驾马车从幕后搬到台前,奠定了后面十几年大数据的框架基础,形成了Hadoop生态圈的第一圈:分布式文件系统HDFS、分布式计算MapReduce、HBase NoSQL数据库(BigTable)和Yarn资源调度服务。一时之间如日中天,Hadoop生态蓬勃发展,Hortonworks、Cloudera 和 MapR一直在进行技术更新,开发了一款又一款的基于Hadoop的工具。Hive的出现实现了类SQL的支持,迅速占领了市场,后面基于SQL On Hadoop的组件更是层出不穷,Presto、Impala、Drill、Spark、Tez、Sqoop等等。Hadoop的生态圈越来越大,后面兴起的新型计算框架和查询框架都围绕着Hadoop进行兼容,如Presto兼容Hive、Spark兼容HDFS存储和Yarn调度,一切看起来都是美好的样子。

但是,从之前的Hadoop是大数据的基础框架到现在Hadoop已经不能完全代表大数据了,Hadoop只是大数据技术领域的一个分支,而其他分支正在努力的演化为新的大数据实现方式。

大数据技术栈

大数据的技术栈我们通常认为分为:资源调度层、分布式存储层、统一计算引擎层和统一接口层。

资源调度层:为了更好的对资源进行管理,解决上层应用的问题,现在出现了很多新的技术,很多企业都开始利用容器编排技术来代替YARN进行资源管理。当然,Hadoop3之后Yarn也支持调度Docker应用了,算是Hadoop的一个改进。

分布式存储层:诚然HDFS是一个较为通用的存储服务,但是它原生的痛点就是不支持小文件存储,而且由于存储特性无法实现高性能的随机读写。

统一计算引擎:现在MapReduce已经基本要被Spark和Flink所取代了,当然Spark和Flink也算Hadoop生态中的一员,但是不要忘了,当Spark底层存储基于S3,调度基于K8S就可以完全抛开Hadoop了。毕竟谁还不是一个通用性的产品呢~

统一接口层:通过统一的SQL接口层来降低大数据技术的使用门槛是我们的共识,目前SQL on Hadoop技术也在蓬勃发展,SQL的支持度也在不断的提升,但是如果不依赖HDFS存储可就不见得SQL On Hadoop了。

上面说了这么多也不是在唱衰Hadoop,只是Hadoop目前看来确实好像遇到了瓶颈。但是Hadoop3也增加了大量的功能,Yarn支持Docker容器、支持TensorFlow的GPU调度,提供了对S3的支持。Hive的LLAP(低延时分析处理)、联邦数据查询和完全支持ACID事务也让Hive朝着更好的方向发展。不得不说现在所有的技术都在朝着云原生的方向前进,如果不能成功上云,可能终将被遗忘。

云原生下开源的YuniKorn

而Hortonworks和Cloudera的合并可能是Hadoop发展的又一转折点,毕竟合并的战略目标是专注于云。就在昨天,19年7月17日,Cloudera 官方博客发文开源了一个幕后工作很久的大数据存储和通用计算平台交叉的新项目——YuniKorn。据介绍,YuniKorn 是一种轻量级的通用资源调度程序,适用于容器编排系统,负责为大数据工作负载分配 / 管理资源,包括批处理作业和常驻运行的服务。有兴趣的可以关注一下Github地址:https://github.com/cloudera/yunikorn-core

YuniKorn[‘ju:nikɔ:n] 是一个虚构的词,“Y”代表 YARN,“K”代表 K8s,“Uni”代表统一,其发音与“Unicorn”相同。创建它是为了最初支持这两个系统,但最终目的是创建一个可以支持任何容器协调器系统的统一调度程序。一方面在大规模,多租户环境中有效地实现各种工作负载的细粒度资源共享,另一方面可以动态地创建云原生环境。YuniKorn 为混合工作负载提供统一的跨平台调度体验,包括无状态批处理工作负载和状态服务,支持但不限于 YARN 和 Kubernetes。

YuniKorn 的主要模块

Hadoop现在怎么样了?

YuniKorn -scheduler-interface:调度程序接口是资源管理平台(如 YARN / K8s)将通过诸如 GRPC / 编程语言绑定之类的 API 与之交谈的抽象层。

YuniKorn Core:YuniKorn Core 封装了所有调度算法,它从资源管理平台(如 YARN / K8s)下面收集资源,并负责资源分配请求。它决定每个请求的最佳部署位置,然后将响应分配发送到资源管理平台。调度程序核心与下层平台无关,所有通信都通过调度程序接口。

Scheduler Shim Layers:调度程序 Shim 在主机系统内运行(如 YARN / K8s),它负责通过调度程序接口转换主机系统资源和资源请求,并将它们发送到调度程序核心。在做出调度程序决策时,它负责实际的 pod / 容器绑定。

Scheduler UI:调度程序 UI 为已托管的节点,计算资源,应用程序和队列提供简单视图。

YuniKorn 的一些特性

调度功能支持批处理作业和长期运行 / 有状态服务

具有最小 / 大资源配额的分层池 / 队列

队列,用户和应用程序之间的资源公平性

基于公平性的跨队列抢占

自定义资源类型(如 GPU)调度支持

丰富的编排约束支持

根据策略自动将传入的容器请求映射到队列

对节点使用专用配额 / ACL 管理将大的集群拆分成若干子群集

支持 K8s 谓词。如 pod 亲和 / 反亲和,节点选择器

支持持久化存储,配额申请等

从 configmap 动态加载调度程序配置(热刷新)

可以在 Kubernetes 之上部署 YuniKorn Web

支持监视调度程序队列,资源使用,应用程序等

我们不止一次听说过XX不是银弹,没有一种技术可以解决所有的问题,技术一直在发展。哪怕是在Hadoop生态圈内,随着实时数据的处理能力提高,构建实时数仓,打造实时数据处理与计算平台已经比离线任务模式要吃香了。上云总归来说是一个大的趋势,对于大小公司都是如此,毕竟可以节省非常多的成本。但是也不排除云+本地的混合模式,毕竟数据现在可是金子~。不管怎么说,一直受Hortonworks和Cloudera的影响推动着Hadoop相关组件的进步,基于他们的技术栈学到了很多招式,希望他们可以更好的走下去。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-07 11:35:00
大数据技术 ClickHouse vs StarRocks选型对比
一般来说,ClickHouse适合于维度变化较少的拼宽表的场景,StarRocks不仅在单表的测试中有着更出色的表现,在多表关联的场景具有更大的优势。 <详情>
2021-08-25 11:24:23
大数据资讯 Hadoop大数据“存算分离”,柏科数据 ISCloud分布式存储"提质增效"
业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过 <详情>
2021-05-07 11:11:30
云资讯 随着云计算等颠覆性技术的出现Hadoop将会过时
Hadoop是一个开源软件框架,它在近十年前开始流行。 <详情>
2020-11-26 09:44:25
大数据技术 学大数据需要具备什么基础和知识点?
学大数据基础包含涵盖大数据体系中的技术点,包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soar <详情>
2020-08-18 15:10:27
大数据技术 大数据不再主流受欢迎,然而Hadoop仍然至关重要
如今,开源分析已牢固地成为企业软件堆栈的一部分,“大数据”一词似乎已经过时,并且Hadoop已成为死法已成为人们公认的民间传说。不过,这太夸张了;尽管Hadoop不再炙手可 <详情>