在上周举行的Spark技术峰会上,以Apache Hadoop及最新开源技术为基础,提供快速简洁安全的数据管理和分析平台全球供应商- Cloudera,宣布与微软共同合作,致力于减轻应用开发者在使用Spark方面的工作。Cloudera和微软及其他开源贡献者,创建了一个新的Apache许可并基于REST的开源Spark服务,名为Livy。Livy现在仍处于早期开发阶段。
Livy为应用程序与Spark相连接、交付作业以及程序化检索结果提供了一个简单的方式。从其核心上来说,Livy是一款提交、运行以及管理Spark任务和环境的REST服务器。其客户端API,允许同步或异步精细Spark作业交付及结果检索。客户能够像一种多租户服务一样对Spark进行使用,无需担心实施、配置或监测。Livy以多租户服务的形式,来为Spark提供会话隔离、安全及用户身份模拟。
Livy的核心优势包括:
减少Spark使用中的麻烦 - 每个Spark的客户端不需要经过Spark安装或配置过程来启动。只需要一个与HTTP终端通信的轻量级客户端。
允许第三方应用使用Spark - 应用程序可以通过Java、Scala及Python基于REST客户端的API来构建,实现精细粒度Spark作业交付、结果检索及SparkContexts管理。Spark可以通过以不同框架写入的程序来调用,如Python的Django,Scala或Java的Play等。此外,由于这是以REST为基础的,只需要一点改动,也能从以Node.js或Go这样的语言写入的应用中使用Livy。
允许新型架构 - Livy使Spark融入基于服务导向(或基于微服务)型架构为一体,这一架构主要通过REST交互。
"微软正在专注于简化大数据及高级分析,来使Apache Hadoop和Spark这样的科技人人可用。"微软数据平台高级市场总监,Tiffany Wissner表示。"在Livy项目上的合作,可以使开发者们通过一个REST web服务,把与Spark的交互变得更简单,可以让Spark作为企业级的一个稳健后端来运行交互的笔记本电脑。"
"Spark通过一种通用灵活性API带来快速的大数据处理。在客户和合作伙伴群体中,我们看到了这样一种自然趋势--他们想从能够和Spark交互的客户端应用中充分利用Spark功能。Livy 由此应运而生。"Cloudera高级产品经理Anand Iyer说。"Livy将使Spark面向更多的用例,我们希望这能够吸引开发者群体不仅是在Livy基础上构建应用,并且能够为它做出贡献,帮助打造其API以及增进其功能性。目前这还是一个新兴项目,因此任何贡献都将带来巨大的影响。"