快速数据分析和实时处理的兴起,可能会给大数据管道带来一定的变革,微服务架构正在融入Hadoop领域。

hadoop

最近几年,开源Hadoop风格的数据开发已经获得了很大的关注,但让主流企业采用这种开发模式依然用了很长时间。它在处理大数据的海量性及多样性上有很大的价值。但它也具有一定的复杂性,它会导致数据处理系统构建方式的巨大变革。

而在数据处理的速度方面,就相对简单了。企业需要迅速处理数据,速度是企业对大数据管道产生广泛兴趣的主要原因,企业需要从批处理的数据处理方式转变为实时处理和即时数据分析。

过去十年中,对计算性能提升的主要目的是为了更好地应对复杂性。随着开发者社区的兴起,容器和Docker,微服务已经可以提供松散耦合的,轻便的面向服务架构来应对各种复现性需求。并在数据一侧的开发上也投入了一定的努力,这意味着Hadoop上的编程模式可能会产生一些变化,而在Hadoop 2上,这些变动可能更大,因为在Hadoop 2上可以开发更广泛的分布式Hadoop附加组件。

容器的变革

如今,我们看到了实时分析应用程序所带来的影响,它结合了不同的框架部分。 Spark,Kafka和Cassandra是其中最常见的,它们和其他技术一起组成了流式大数据管道。容器和微服务都更适合于整体架构,更为重要的是,让这些框架能够协同工作不是一件容易的事。不仅如此,在他们一同工作的同时,还需要对其进行调整和更新,以实现更好的融合。

在大数据架构中应用容器和微服务的举措正变得越来越普遍。BlueData最近在其EPIC平台上新增了用于管理Docker容器的应用,这些容器用于创建Hadoop和Spark集群。 MapR编程架构是将微服务技术应用于流和实时分析应用程序架构的先驱。Pachyderm构造了一个容器化的处理引擎,在最近的Strata + Hadoop 2016 大会上该技术独占鳌头。

Mesosphere也在密切关注着相关技术的发展,它已经建立了一个系统,用于运行容器和数据服务。该公司的产品是构建在一个开源的分布式系统内核或群集管理器Apache Mesos上。它已经被Airbnb,苹果,Twitter和其他一些公司所采用。

数据点

也许对于Spark和Mesos容器服务在一起出现,我们并不用感到十分惊讶,因为Spark的创始人Matei Zaharia与Mesos的研发也有着一定的渊源。 事实上,今年Mesosphere开展的针对500名Mesos用户的研究发现,43%的受访者在Mesos上使用Spark;32%的受访者在Mesos平台上使用Kafka,24%的用户则使用Cassandra。

另一个专注于数据分析和微服务的新兴公司是Lightbend,该公司的创始人包括Scala(Spark和Akka开发所使用语言)的发明者,Akka是Apache Flink中分布式通信的核心,也是大数据管道的另一个新兴的元素。

Lightbend发现了用于快速实时数据处理应用的容器和框架之间的重大关联。 今年早些时候,公司进行的一项调查显示,在Java虚拟机上运行应用程序的2100个开发人员中,34%的受访者进行实时大部分数据处理,22%的受访者进行等量的批处理和实时处理。

在生产环境中使用了微服务的受访者中,30%的人使用了Kafka,21%的人运行着Spark Streaming,这再次证实了新的数据处理框架与服务和容器方法之间的关联。调查还发现,这两个框架都与另一个技术有关,那就是Akka Streams,35%的受访者使用了它。

对于数据微服务,大多数新的基础设施仍需要构建。很多地方还需要一点点摸索,开发团队需要找出哪些是正确的,哪些是错误的。

此外,数据管理的明显特征——“状态”会话和数据持久性在微服务领域仍然有待完善。 对于Hadoop的开发风格来说,它要取代或替换专用的数据仓库,使用更具活力的开源系统,这还有很长的一段路要走。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>