中国IDC圈9月1日报道,数据给我们的生活带来了翻天覆地的改变,万物互联云计算,各行各业的互联网化使我们提前进入了大数据时代,而这些流动的数据通过新的技术,也将被赋予新的能量,生动的描述未来是一项挑战,因为正式的未来很少与科幻世界保持一致。8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,汇聚了业界领袖、行业专家,他们将从产业的角度和技术的角度来解读数据从何而来,数据如何应用,数据重新构未来。

会上七牛云陈超跟大家介绍了开源大数据生态概况。

8E1A8953

陈超

以下是陈超演讲内容(根据速记整理):

陈超:我们开始下午的技术演讲,我是负责大数据这一块的负责人我叫陈超,可能大家对我社区的ID比较熟悉,我们这次是数据为峰,引领技术先锋。我的名字是大数据生态的概览,由于时间的原因,我会在我觉得比较重要的地方,会多讲一些,可能大家不是那么关注的地方我可能会跳过,但是我希望能把需要讲的都给大家介绍一下。

在大数据这一块,我们最主要的基础就是我们分布式文件系统,我们的HDFS大家都已经熟悉了,下面Tachyon,它也是一个文件系统,只不过它是基于内存的一个文件,它由出品,引用了以后,可以把数据全部存在里面,直接从内存出去,让你的效率成倍提高,有些人想说,内存丢失了怎么办,事实上面,现在业内几乎所有基于内存的文件系统,几乎都有。在我们Tachyon可以放入数据,是到你用的时候才有。

在分布式计算这一块,我们最早接受的批量计算,大家用的最多是MapReduce,效率比较低。我在2003年的时候在国内推广Spark2004年慢慢大规模采用,Spark基于内存的基本框架,但是大家现在对Spark有一个误解,完全基于内存,事实上不是,它做了很多改变。另外它还做了一些额外的优化,来保证我们更好的数据稳定性。第三个Flink,现场有多少人知道这个框架,它跟Spark的定位是比较像的,它们都希望走的是炉子,跟Spark有兴趣的朋友,我们可以会下单独讨论。

接下来,我相信大家对第四个,Impala更熟悉一些,但是它有去编译,做了一些代码生成提高效率。事实上面,在Facebook也做了一个类似的,它对知识是非常好的。另外方面,还支持查一些,你可以认为它是一个插电的设施,你有什么都可以查,只要有数据,原始数据确实在某个地方,也可以查。这一块,我相信这边也有不少人在用,首先它使用非常方便速度也比较快,另一方面,更关键的一点,它已经从不同的框架里面来学习很多的优点,吸收进来,所以说大家这边如果有人学习的话,或者想用的话,我建议你们可以从Spark SQL入手,以后大家不会获得原始行业进行一个计算,而是说,我们对它进行一个控制,明显我能做更多的优化。Drill这块我就不展开讲。

流式计算,这一块大家非常熟悉,我想提醒一下,你用个的延时在几秒左右,很多人拿这个说事,数据出来再到我们Spark Streaming已经有不少飲飭了,所以在处理上面,给你带来并不是特别大的事。当然如果延时真的非常重要,我必须要考量,那你可以用。还有一个好处就是说,它可以用你的批量计算和时时计算,做批量的时候,你使用,你用换成其他代码都是这样的都不用动,所以说也非常方便。只不过它是一个完全基于设置的方向,它的思路是我的就是为它设计的,但是,它认为,批量计算只是时时计算的特例,这是一个思路。

其实雅虎出的比较早,代码更新也非常慢,对它表现尊敬,出来也比较早,它主要是针对于,既然已经成为事实上的标准,那用的人,在国内并不是特别多,如果你们有兴趣并且说你们也是的话,我建议你们可以去看一下。

数据收集这块,是这样子,Flume用得比较多。第二个Flunetd做了很多类似于统一的数据平台,消息平台,它可以支持不同的一些插电化的接口,但是这块,前两年还可以,这两天,至少在国内交流起来并没有特别多。Sqoop是一个很尴尬的处境,它的愿景很美好,类似观点,但事实上面,大多数的公司,自己更喜欢从去重写这样一套的框架。Scribe不多讲,你也可以跟Sqoop比较。有一个事我不知道有没有公布,用语言,重新写了一套,性能提升了很多,有一天有一篇文章介绍,如果你们用了这套框架,可以查一下文章。Camus一个用法是,用到我们这上面去是非常方便的。

我说了Kafka是一个概念,概念也非常简单,中间是数据,多数据可以让数据进行处理,概念比较简单。在介绍的时候,也介绍了,本身是一个优秀的框架,但它可以支持概念,我这边不多介绍,有兴趣可以看一下。最下面NSQ是一个比较酷的,以前讲的时候,看不到,这种玩意。现在混的比较多了,总要去看看这个,但是如果对这个比较感兴趣的话,可以去看看,如果NSQ比较好玩的话,可以联系我。我们这边有很多空间有NSQ。

我们在两年前的标准,就是Mahout,我不知道有没有人民关注我的微信账号,去年4月份,我也写了,Mahout已经停止接受任何新的算法,投到上去。我现在主要用的是,里面的算法也比较丰富,并且我们有新的,是一个非常酷的东西。大大简化你从数据进来,到我们整个流程结束。毕竟它也结合了一些理念在里面。PredictionIO是基于我们的服务器。最后一个scikit learn朋友们非常了解,scikit learn本身用的也非常清楚。

图处理,我先重点讲一下第一个和最后一个,我认为到现在为止有三个产品非常重要,或者其他一些挖掘,事实上有三个可以看得了,整个网络非常复杂,节点非常多,我要找任意两个节点的最短路径,第三个我认为也是目前用得最多的。大家想一下,你们这边咱们会场里面有这么多人,如果说微博我关注了你,我到你那边指向了,你你关注了我可以指向我,想想看如果我们这些互相关注的人里面,是不是三角形越多,我们社区就越紧密,三角形越少我们社区就越松散。我关注你你关注我,还是一样的。像我刚刚讲的三个场景,都需要一个领导力,所以我认为一个优秀的框架不需要让大家,我认为应该帮你搞定。

最后一个你可以把边、点存在那里,非常简单。如果说你有图需求,可以看一下。MongoDB我不讲了。Redis也不讲了,微博非常好用。对比一下我相信这里面肯定有这个的支持者,所以我前端时间参加回答问题的时候,也是冒着很大的风险,万一得罪了也不好。所以说看自己的品位,是一个P2P的构造。你们不要去过于执着两者的区别上面,他们的数据都是基于。你可以认为最后是一个,其实是一样的,没有大家想的差别那么大。

NewSQL不知道这里面有多少人了解曾经开源过,被某一个公司收购了,直接就再也看不到了。公司大多数人都在用它的手机、苹果。所以说现在注意力就转移了,它不让我玩,我不能就坐以待毙我得找一个新的替代品。所以在国内我更喜欢小强DB,打不死的DB。现在还有一个比较酷的产品叫做HyperDex,大家了解也非常少,也可以去看一下。

搜索这块,是这样,Lucene这不需要讲,这本身没有什么对错。ElasticSearch现在生态圈,支持会更多一些。到搜索、到展示都是一体化的。所以说你让我个人建议,我会建议用ElasticSearch。

OLAP,大家没有看到,支持超高围度。它才开展两、三个月,还是有些问题,用的过程中,还自己去避免。Zeppelin,在业内上面写一段,下面把结果呈现出来,包括图表。

数据可视化,这些就看前端你们更喜欢哪个。

容器在大数据领域也避不开这个话题,现在在做Spark,我指的是容器,在座大多数朋友也需要去关注一下容器市场。它可能会对我们架构方式个思维方式有一定的改变。

调度不多讲,Mesos、YARN、Sparrow,不展开,你们对调度参考一下Sparrow。

幕后英雄,ZooKeeper,第一想法上这个,没什么好讲的。Praquet存得更少拿得更快。

Lambda架构就是这样,把它们两个数据结合起来去访问。

这个是我整个PPT最重要的一页,其他不多讲了,谢谢各位!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2015-09-02 10:19:00
大数据资讯 美图网杨尚刚:数据库运维和性能优化之路
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,数据库优化是一个很大的问题,迄今为止一直困扰着所有的数据库管理员和程序员 <详情>
2015-09-02 10:13:56
大数据资讯 携程数据架构建设和平台服务化的实践
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,会上携程网的架构专家杨晓青,给我们带来携程数据架构建设和平台服务化的实践 <详情>
2015-09-02 09:51:00
大数据资讯 一号店陈敏敏:电商场景下的千人千面和实时意图实践
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,会上一号店精准化部门架构负责人陈敏敏以《电商场景下的千人千面和实时意图实 <详情>
2015-09-02 09:38:00
大数据资讯 贝贝网:特卖场景下的大数据平台和机器学习实践
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,如何快速的建设技术体系,发挥技术的价值。会上贝贝网大数据负责人周黄玲以《 <详情>
2015-09-02 09:32:35
大数据资讯 乌云章华鹏:成长型互联网的数据安全
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,会上乌云章华鹏以《成长型互联网的数据安全》为题给大家带来了精彩的演讲。 <详情>