品高云作为一家云计算服务提供商,在云计算领域的目标是致力于建立面向行业企业、公众服务的立足商用、开放、规范、高性价比、可演进的混合云平台。从产品规划、成型到应用实践,在理论与实践过程中品高云做为核心产品,遵循四点原则,并在原则之间做出平衡。在北京时间7月7日举办的2016中国军民大数据产业高峰论坛上,品高云行业架构师陈春华进行了主题为《品高云在自主可控和大数据支撑方面的研究和分享》的演讲,以下是演讲实录。
品高云行业架构师陈春华
陈春华:大家好,提到大数据,大家不可避免的会聊到云计算。今天我在这里很高兴给大家分享的就是品高云在自主可控和大数据支撑这两个方面做了一些研究和实践的情况。然后前面花一点时间简单介绍一下品高公司。
品高公司是2003年成立,因为我们成立的时候最开始是做那种大型的政企顾问咨询和实施工作。我们在这个行业做了十三年之后,我们在2008年的时候,当时我们做南航的电子退票系统的时候,因为要部署到海外去,当时给客户做调研的时候,发现其实在海外的DC里面,像ACS这种服务化的交付模式在未来一定会成为一种趋势,于是我们在2008年就开始研发云,因为那个时候其实是完全没有任何东西可以参照的,我们是完全自己去一行代码一行代码写的。
2008年究竟有多早,其实这里有个时间轨迹可以看一下,因为2006年的时候谷歌才提出云计算的概念,2007年的时候,AWS也就亚马逊才提出了(EC2)的服务,品高是在2008年的时候就开始自研,然后2009年的时候,我们就在客户的环境里面已经在落地去试验。2010年的时候我们是发布了国内第一款正式商用的基础架构云产品,到后面其实2010年2月份发布的,2010年的10月份其实当时OpenStack才开始开源,到2012年OpenStack才开始真正是被大家接受,然后在后面,像一些国际的厂商,像VMware基本算虚拟化的鼻祖,其实他在2011年的时候才提出的,到今天我们其实已经发行到第六个版本,包括今年我们即将发行第七个版本。
品高云作为一个自主研发的云操作系统,究竟是怎么一个形态呢,其实首先我们在底层是将我们的硬件的能力资源池化,包括计算、存储、网络的能力,计算池化以后,我们要封装一层,就是封装成真正的以服务方式能够对外提供有标准的API有标准的服务能力。包括我们要做一个要提供真正适合企业个性化的服务,这种是我们很多做互联网,或者是做标准领域的一些云厂商很难做的工作。因为他们其实是在一些标准化,就是说我就提供这些,你需要什么你来什么。
但是品高云不同,因为本身我们在政企或者说在一些传统行业里面已经深根了13年,把以前做的很多顾问咨询很多实施的经验能够发挥到我们的云平台里面去,从而提供我们可以做企业真正需求的个性化服务。然后我们的运维人员可以在这里面对我们的资源进行大规模的调度管理,以及对我们的服务层做一个监控管理。然后我们的用户可以在我们的自助平台真正的是自助式的获取他的服务,很便捷很快速。然后我们的领导层又可以在我们的这种全局的视图里面去宏观的了解我们的整个资源使用情况以及服务的能力。
品高云是商用了6年,6年在12个行业。这个是截止到去年10月份的数据,超过了一万四千台,然后运行了九千多个小时。现在包括一些一流的政府,一流的企业其实都在生产用,包括像腾讯其实现在是中国大规模私有云的环境。超过了六千多台正式生产的,还不包括开发测试,正式生产超过六千多台物理服务器。品高是作为他私有云的唯一供货商,然后包括像广州市的电众云,缆车,包括银行的招商银行以及高校里面,品高在这个行业已经是做出来一点成绩。
接下来谈一谈我们想聊的自主可控,这里就聊一下关于虚拟化里面有一个架构,这个大家可能都很清楚,最底层是我们的硬件的Server层,然后再我们的主机操作系统层,再到我们的虚拟化层,然后在我们的每个虚机里面又有虚机的操作系统,以及虚机里面的运行库,像软件、中间件、数据库的一些,然后在上面再承载着我们的应用系统。其实品高在这里面做了这么久,一直在说做我们的云平台,也就是说其实是除开Server层之上我们想提供的能力。
我们从2013年、2014年就开始说我们想要做自主可控,那个时候其实我们最开始只是做自主,因为我们最开始从,包括操作系统,我们开始跟中标、麒麟、普华,再到我们的中间件,像一些国产的数据库,像(人大经仓、达梦)这些,一起做,把整个软件层做到全国产化,全自主研发的。这个层其实做完还只能算自主,还没有做到可控。这个是为什么呢,因为我们整个云平台的环境还是搭建在X86的服务器,还是国外的一些技术,那真正想从自主变成自主可控,我们是在2014年开始研发,然后2015年真正落地,包括跟龙芯,然后像飞腾深微这些国产的服务器,从硬件到云平台到操作系统到软件、中间件再到上层的应用,一个全国产化自主研发的一个平台,就是这么一套云平台才可以称为,我们是构建了一个完全的自主可控平台,就是说从我们开始自主研发,再到我们整个云平台自主可控,这个层是我们做的。这个是我们实际环境简化的TOP图,这个图里面可以看到,可能刚才聊到我们的服务器构建在国产化上头是完全OK的,但是这里面有一个过程就是说,我们有X86的服务器,有国产CPU的服务器,为什么我们会做这么一件要支持X86,又要支持国产CPU的易购平台呢?
其实这里面有一个很简单的例子,其实我们已经有太多的应用,有太多的系统都是部署在传统的X86架构下面,这种环境下,我们想做到你颠覆式的,全部推倒原来的换成现在是很难的。这个过程中一定是有一个渐进式的过程,于是我们要做一件事情,要把传统的X86加国产CPU的易购能力做出来,这个其实已经在(航连客供的轻六所)那边就已经包括落地,包括有试验的基地是可以参观的。究竟我们的云平台,就是我们把国产CPU构建一个自主可控的云平台,最终的形态会是什么样子这里有一个实际运行环境的Demo,给大家演示一下。
(播放视频)
刚才可以看到,完全构建在龙芯3D的服务器上面,这个是去年我自己在我们公司弄的一个小的测试环境,在这个环境里面,我们可以看到,我们可以像跟公有云一样,在界面上面,自助式的获取你想要的一个基于龙芯成果展化的一台服务器上面的一个计算资源。这里面可能有一点大家细心的朋友可以注意到。最后我运行的一个(Ubent)的一个性能测试,性能测试里面可以看到,我们的基于龙芯的云平台里面,构建的实例,他运行出来的结果,跟我们的物理级的性能,几乎是没损耗的,这个里面做的另外一件事情,我们其实是从自主可控来做一件事情,我们一直是想突破,因为其实当我们把整个国产服务器做到上云这么一个阶段,解决的问题是我解决了大规模的资源调度,和资源交付的问题,但是真正要落地到生产,那其实你的性能是会成为一个瓶颈。
于是我们一直要突破的就是性能的问题。那在性能问题里面,我们看到传统的虚拟化架构里面,很明显是有一层虚拟化的损耗的,我们是利用龙芯的技术,在利用龙芯技术,可以看到我们在架构上面,明显的是减少这一层,这一层,因为目前业界的一般的虚拟化手段的一般会在5%到20%不等在这一层,我们用龙芯的技术实现之后会发现,我们提供出来的实例,我们不叫虚拟机,因为这个是龙芯实例,龙芯的实例的性能,是跟我们物理机,几乎是无损耗的,这样的话,我们是真正可以在生产中去应用的。我们的这个龙芯实例,是在我们的合作伙伴,包括也是我们的客户,科大讯飞的一个实际的一个测试的结果,因为大家都知道科大讯飞是做语音云的。但语音云引擎对性能的要求是非常严苛的的他们以前是用OpenStack,开源的OpenStack的环境,会发现,性能始终上不去,这种情况下,我们的容器,我们云平台提供的容器技术,当时是最后测试的结果,包括CPU的计算能力,以及对于GPU加速的能力,这个是真实是能够解决到他们的一个云引擎的性能的这个能力的,那做完这个,可以看到,我们在虚机,容器,以及GPU加速上面,这里分享一点,我们其实他插型显卡我们在2012年的时候,就开始去做这方面的工作了,那其实落地的时候,是在2014年的时候才落地的,像英特尔的协助引擎,(Fair),英特尔本身是2015年的时候,出来的。
他2015年出来的时候,到现在,我其实已经适配完成,但其实还没有在客户落地,因为每一个新的东西出来的时候,他一定是被市场接受是有一个过程的,在被接受的过程之前。作为厂商一定是要在市场之间,要先做很好的技术的研究,以及实践,这样的话,你到后面,真正是到市场,到客户的现场,你才会遇到的坑少,碰到的问题才能少。这个我们一直在做的,是我们技术驱动型,而不是说市场驱动性,这个我们做完,他是安全看,当时是做一在有一个很典型的应用场景,是在中山大学那边,因为他们那边会做机器人,机器人学习,机器人出去比赛的时候,所有的指令的都是智能的,那这个工作是在哪里完成的,其实在实验室里面。
他们是机器人的芯片是他们先要学习,这个学习的工作是在我们的云平台上去构建的,我们当时有三台,每台里面有三块特斯拉CE2050的一个显卡,当时承载的(英韦达)公司的(Kuda)平台。中山那边的科研团队,基于这个平台上面运行(Kifei),做深度学习,学习完之后,机器人出去比赛的时候,那种反映就很快。那这个是我们实际,做完这些工作。在一些客户的一些实践情况,一些落地的情况,这个借用,大家今天用的比较多的,我们其实是Gartner2015年的一个技术成熟的路线,这里头有云计算,只是云计算的位置,可以看到在这里,在2014年的云计算位置,大概跟今年的2015年的VR在同一个地方,其实如果按照这样看,VR明年会到云计算这个位置。
然后在大数据,其实他个里面,包括他提到了大数据,包括他一些机器学习,物联网这些技术。其实说白了这里核心我想传递的点,虚拟化的技术,他其实不一定完全适用,因为他对于技术的要求一定是越来越多的轻重情况下云平台是什么呢,一定是要通过一个软件定义的云平台架构,这样强化数据中心对于数据化业务的一个支撑,这个是Gartner趋势上面已经很好的定义了这一点,我们(品高云),是一个什么是做到在整个云操作系统里面,是一个完整架构的。软件定义的平台,这里面有,提到大数据,提到前面的深度学习这些工作,那品高云究竟如何能把这些软件定义完之后,如何交付到用户手里面,这个是很关键的,其实我们是通过一种服务化的方式,彻底改变了我们以前,资源业务获取方式。
最典型的一种方式,以前大数据的环境,我们很多是构建在物理机上面,来一批物理机,去构建一个大数据,hadoop或者Spark的环境,构建完之后,这批环境就基本上用完这个项目之后,也不会拆掉,因为数据在里面,平台还在上面。我不会撤掉的,但是其他人想用的时候,这个时候又很难,包括里面的数据,你想分享出去的时候,也很困难。
这种情况下。我们云解决一个什么问题,我以一种服务化的方式,可以帮助你快速的去申请。去构建你想到的一个大数据的一个运行环境,这个是云平台帮你解决的事情,这个里面,包括你运行完之后的数据,我可以存放在你自己的S3的8K里面,这样的话对外分享,你可能一台连接,那这样其实可以通过S3里面的权限,因为当你把整个云平台,比如说Spark里面,他其实是做hadoop,这些其实是为了做运算,他提升系统权限的控制,所以你要分享的时候,你会把系统权限给别人。这个是我们不想,但是S3,云平台,云计算的技术,带来就解决这些问题。
这里面其实我也准备了一个的Demo视频,实际的去体验一下,用户在我们的云平台中,他是怎么去,比如说他需要一个Spark的服务,这个是怎么构建的的。
(播放视频)
这个里面,大家可以看到,用户在我们的云平台里面,想要一个Spark的运行环境,他其实只需要在服务里面去申请,他想要的一个Spark服务。那他想申请的时候,如果要追求性能,他其实可以申请一个容器的环境,如果追求能够快速构建,可以申请一个虚机的环境。以及他可以需要,可以自定义的去选择说,他需要的规模,需要的版本,这个是云平台,真正是以服务化的方式去帮他去构建的,这个是广东省公安规划的一个警务云平台,这里面是规划的一个云平台一个架构里面,很有特点的一点,他其实明确的要求了说,云平台一定支持构建,大数据的一个应用环境的一个能力,这个里面有一个很好的验证,他在做这个事情的时候,他是希望能够将大数据的资源和传统的资源,这种大规模的资源,两者不同类型的资源,能够统一的灵活的管理,同时呢,又利用云平台这种,技术,能够将资源的能力,可以快速的交付到用户的手里边去的同时还能够需保证我大数据运行的一个应用性能。这个是品高,包括也是我今天想给大家分享的,主要在自主可控,以及在大数据支撑上面的我们的一些落地的情况,以及我们的一些思考,谢谢大家。