8月5日是个特殊的日子,为了推动大数据技术在中国大范围应用,同时将本土技术回馈到国际开源社区,Cloudera与清华大学合作达成仪式。说到Cloudera,相信业内人士并不陌生,大数据市场的飞速发展使得Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。而在Hadoop生态系统中,规模大、知名度高的公司则是Cloudera。

仪式结束后,Hadoop之父、Cloudera首席架构师、Apache软件基金会理事Doug Cutting应邀接受了中国IDC圈记者的采访,谈及了Hadoop在安全方面的措施,Spark与Hadoop之间的微妙关系以及Hadoop未来的发展等一系列问题。

wKioL1bCxFyDdkl7AAD2Q2CageU374.jpg-wh_651x-s_1625413749

Hadoop之父、Cloudera首席架构师、Apache软件基金会理事Doug Cutting

Hadoop已成为非常安全的平台

当今时代,社交媒体、网络、移动定位等诸多技术的广泛应用使得数据急速增长。Hadoop作为大数据利器,一直被大肆宣传。忆往昔,Hadoop为搜索引擎建立的网页索引,并不是处理信用卡号,所以其安全问题被搁置。如此一来,许多企业对其态度也从原来的浅尝辄止变成了望而却步。

关于安全方面,Doug Cutting指出,在Hadoop创立的时候是没有做安全这块的,但是我们后来不断的加强对安全模块的研发,现在Hadoop也成为了非常安全的平台。在安全方面有:身份识别—保登录的人群是被合法认证的;用户授权—控制用户能够读取的信息;审计—提供满足监管需求的文档支持,查看是否有违规操作静态数据以及动态数据的加密。

Spark与Hadoop相辅相成、互补共生

Hadoop主要包括三方面的功能:以HDFS为主的存储功能,以MapReduce为代表的Batch处理功能以及以YARN为代表的scheduling功能。

说到Hadoop自然而然会让人联想到Spark,作为实时处理工具Spark在batch processing和streaming代表着下一代技术,并且在某些方面优于MapReduce。那么,假以时日Spark会不会有取代Hadoop的可能,Doug Cutting给出的答案当然是否定的:“我觉得Spark不可能取代Hadoop,它能够取代部分Hadoop的功能,比如说取代MapReduce,二者之间更多的是互补的关系而不是竞争的关系。在存储和scheduling不可能取代Hadoop,Hadoop在batch或streaming处理方面比Spark更强大;在搜索方面很多又是Spark搜不到的,所以Spark只是相当于开源集群计算的框架,它并不能完全取代Hadoop。Cloudera不光是支持Hadoop,也支持Spark,我们是Hadoop+Spark这样的公司。”

Cloudera现在参与的项目有20多个,包括Hadoop、Spark、HBace等生态系统内的项目,也拥有超过100个对于技术和系统都非常资深的技术开发者。其实用户特别希望开源社区以开源形式开发软件,开源社区要进一步发展需要这些厂商来提供支持。作为开源厂商,到底是不是一个商业模式放之四海皆准,现在整个行业都在探索这个问题。Doug Cutting指出:“Cloudera的核心平台是开源的,但是我们可以卖一些加载在核心平台上的软件,这种软件可以让客户更好的管理他的数据,更多地对管理工具进行优化,包括优化、监控数据的管理工具,以收费的方式可以进行出售,我相信是比较成功的。”

中国企业为整个Hadoop的开源社区做了大量的贡献

Doug Cutting不仅任职于Cloudera,同时也是Apache软件基金会的理事。在基金会里,有很多企业参与Hadoop的研发,整个Hadoop版本发布速度非常快。当然,这其中的也不乏来自中国的代码贡献者,Doug Cutting表示:“中国的企业为整个Hadoop的开源社区做了大量的贡献,例如华为、阿里巴巴、腾讯等企业不但是Hadoop的使用者,同时也是Hadoop技术的贡献者。”目前,90%的Hadoop软件运行于Hadoop系统平台上,其中很多软件都是基于Hadoop平台之外的开发。Doug Cutting强调:“在整个生态系统环境内我们会打造一个非常丰富的生态系统,让更多的参与者能够进行开发。”

Cloudera除了与清华大学合作之外,在海外也跟其他大学展开了合作,其中包括美国、新加坡等地的大学,也包括欧洲的一些大学和研究机构。Doug Cutting表示:“我们合作的主要形式就是提供免费的课程,这些全套免费的课程我们开发了很多年,免费提供给这样的大学共同展开合作。我们在中国选取的第一个合作方是清华大学,今后将会与更多的中国大学展开合作。”

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-07 11:35:00
大数据技术 ClickHouse vs StarRocks选型对比
一般来说,ClickHouse适合于维度变化较少的拼宽表的场景,StarRocks不仅在单表的测试中有着更出色的表现,在多表关联的场景具有更大的优势。 <详情>
2021-08-25 11:24:23
大数据资讯 Hadoop大数据“存算分离”,柏科数据 ISCloud分布式存储"提质增效"
业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过 <详情>
2021-05-07 11:11:30
云资讯 随着云计算等颠覆性技术的出现Hadoop将会过时
Hadoop是一个开源软件框架,它在近十年前开始流行。 <详情>
2020-11-26 09:44:25
大数据技术 学大数据需要具备什么基础和知识点?
学大数据基础包含涵盖大数据体系中的技术点,包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soar <详情>
2020-08-18 15:10:27
大数据技术 大数据不再主流受欢迎,然而Hadoop仍然至关重要
如今,开源分析已牢固地成为企业软件堆栈的一部分,“大数据”一词似乎已经过时,并且Hadoop已成为死法已成为人们公认的民间传说。不过,这太夸张了;尽管Hadoop不再炙手可 <详情>