中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日下午的大数据技术与产品创新分论坛上,中国信息通信研究院、移动互联网与大数据部的姜春宇为大家详细汇报大数据产品能力认证2016年第一批测试结果的综述。

500-333文章照片-大数据技术与产品创新-姜春宇

中国信息通信研究院、移动互联网与大数据部姜春宇

以下是姜春宇演讲实录:

姜春宇:感谢大家参与我们今天的论坛,我今天主要是就上午我们的颁奖和我们发出的认证来详细的讲述一下我们整个在认证过程中所做的一些事情和每个厂家的测试情况和认证情况的细节。熟悉我们的朋友知道,去年也是在同样的时间,同样的地点,我们讲了2015年整个测试的情况,因为我们做这件事情已经不是第一年了,这是我们第二年,2015年我们已经对国内的一些厂家进行过类似的评估了。但是今年我们在去年的基础上又有了新的一些共享和新的升级,具体我通过PPT来告诉大家。

我是来自中国信息通信研究院移动互联网大数据部的姜春宇,我们也在数据中心联盟有一个大数据工作组,我在里面是副组长。我今天的演讲题目是2016年第一批大数据产品能力认证测试结果综述》。演讲的整个内容分为两部分,第一部分是整个认证的情况,第二部分是我们的一些总结和下一步计划。

第一部分大家可以看到我们今年的一个测试标准演变,去年我们测试的组件集中在Hadoop平台上,主要是HBase、Hive、Mehcut等等,大家可以看到,我们主要是性能,加了容错性、安全和运维,是两个功能的混杂。我们今年通过去年一年的积累,我们整个思路更加清晰了一些,我们提出了整个Hadoop平台的标准体系,就是把功能和性能分离了。技术能力我们从以下七个维度来衡量,就是功能、运维、可用性、安全、兼容性、多租户和扩展性来衡量整个大数据产品的一些全面的能力。性能专项我们是专门只考察性能这一部分,这是我们去年到今年一个大的变化。

2016年我们做了这样一套标准出来以后,很多企业踊跃的去报名,经过我们的评审和认证,我们的测试企业主要针对的是商用Hadoop平台,包括Hadoop和Spark生态的所有组件。本次大数据产品能力认证包括这七项,38项测试用例,有28个必测,选侧10个,必测项全部通过才能通过我们的认证。测试环境这次是由企业来提供,规定是10台左右的物理机。测试时间是从3月底到4月20日,有一个月的时间把各个厂家的产品测试了一遍,在25日的时候我们组织了专家评审会,把测试结果通过企业互评和专家评审这两套方式最后给予确认。

大家可以看到我们整个用例的体系架构,就是从用户出发,全面客观的一个评价指标体系。分为运维、可用性、功能、兼容性、安全、多租户和扩展性。标黄的部分是选测项,其他的非黄区域是必测项,也就是说你这些能力都必须具备,才能通过我们的认证。我们整个的过程是自愿参加的,就是企业来自己通过报名参加,我们整个过程比较科学严谨、公开公正,是这样一个流程。大家可以看到我们左边是一个认证的流程,右边是一个评审的流程。认证是从报名提交材料,准备测试环境,专家现场审核,给出一个测试的结论。我们再组织企业互评,再组织客户专家和学术专家的评审,达到对于测试结论的认可,达到一个评审结论。对于我们通过评审的各家企业,颁发我们的证书。通过评审可以看出来,由测试专家来汇报整个测试的总体情况,每家企业就他的测试报告和测试情况进行答辩,每一项用例怎么描述。每家企业的竞争对手都在里面,去互评他们。再就是有一些学术专家和企业专家以及客户专家,一起来给出一个评审结论。

我们的审核方法,测试专家在现场大致有这样一些,主要是检查软件的版本、组件版本和测试工具,还有就是数据,凡是用到数据的时候,我们要对他的数据量大小和副本数都进行一个确定。物理机的检查,我们一定要检查10台左右,而且必须是物理机。还有结果的检查,我们每个测试用例如果有时间的话我们会记录它的时间,它有结果的话,我们会对它的结果进行验证。文件的留存,关键的一些包和脚本我们都会进行复现,追溯到当时测试的正确结果是什么。

接下来是本次通过产品能力认证的产品,有6家,大家可以看到,这个排名是根据我们当时测试的顺序排名的,并没有其他的区别,有这么6家。东方金信、明略、博易智软、杭州华三、星环信息、腾讯等等,大家可以看到有传统IT的企业,也有很多互联网企业,开始向整个2B的市场发展。这是我们的测试现场,我们拍摄下来的关于测试的机器,还有测试人员在这个过程中的一些细节。大家可以看到整个图片,这是机器的和测试人员。

下面我们总体的给大家汇报一下各家企业测试的情况。东方金信是完成了必测项的28项,选测项10项里面他们完成了7项,标黄的地方是他们没有参加测试的。明略完成了28项的必测,有5项选测没有测。博易完成了28项必测,完成了2项选测,其中有8项选测没有测。华三完成了28项必测,有8项选测做了,有2个没有做。星环完成了所有测试项目28项的必测和10项的选测。腾讯也是完成了28项必测和10项选测。

通过各个指标的维度大家再来感受一下,从运维的十个用例里面,大家必测都完成了,其中有一些厂商没有测集群。多租户的话有一些厂商已经在朝这个方向做了,有一些厂商还没有做。而做的技术各有不同。安全方面大家可以看到,在重组加密方面大家的实现是略有差异的,有些是基于通道加密,有的是基于整个存储加密,有的是基于外部应用的加密。身份认证权限和审计这一块大家的实现基本上都是一些通用的技术。但是在权限和审计这一块我们认为是一个非常重要的方向点,能体现出各家厂商产品的一些细致化的程度,还是略有差别的。这里面如果大家以后能看到测试报告可以知道,每家厂家在权限和审计还有身份认证这一块做的差别,功能完备性和其他的一些细节、界面这方面还是略有差别的。

可用性这一块前七项都是常备的,基本上能力都是相当的,没有太多突出的。管理节点的恢复和失效,这是大家基于自己产品的考虑。因为它的失效本身不会影响到整个集群的运行,但是基于大家自己的考虑和对运维的认识,有些是基于热切换,可以直接无缝的切换,有些是基于冷切换,有些还没有考虑。

兼容性我们可以看到,主要是ODBC、JDBC相对来说比较简单一些,传统数据库同步也不是特别难。SQL的支持度这一块大家的策略也略有不同,有的厂商我们测试的时候,过程当中有一些厂商是没有测,也有可能他具有这样的能力。我们可以看到东方金信、明略和星环是完成支持99个语句,华三和腾讯选测了其中的10个左右,博易没有做这方面的测试。跨不同数据库表的关联其中两个厂家没有测,其他的都测了。扩展的方式,每家的台数不一样,但是都验证了扩展的能力和集群的收缩。

功能性我们可以看到,大家基本都具备了这些导入SQL的能力,NoSQL和机器处理的能力,这一点大家的差别不是特别大。

总结和下一步计划。我自己对整个测试过程中,因为我是全程参与的,包括标准的制定和中间的一些测试,包括后来的评审,我是全程参与的。所以我是最了解整个过程的,我自己总结了一下大概有这么几个性质:

权威性。我们在数据联盟的架构里面联合了20多家大数据企业一起来制定这个大数据产品的评测标准。也就是说,很多测试用例、功能项和一些点都是由企业方来提出的,并不是我们来给大家制定你该测什么,因为企业比我们更了解整个技术的细节。

先进性。我们纵观整个市场业界,第一次全面的考察大数据商业化软件产品平台综合能力的活动。

全面性。我们有38个认证的项目,覆盖了7个维度的方向,所以是能比较全面的去考核一个产品的整个能力情况。

严谨性。我们完善的一个现场测试流程,包括后续的一些评审过程,我们引入了企业的互评,客户专家和学术专家的评审流程,通过在现场严格的检查组件、环境、流程、结果和文件,这些过程来保证整个程序的合规性。评审的过程就是由这三类的专家构成,基于一个答辩的过程和我们的测试报告来给出一个测试的结论。

这是我总结的四个要素。忍者的意义也不用多说了,因为从我们开始做这件事的时候就不断的有客户,也不断的有厂家来告诉我们,说这个是市场或者是业界非常缺的东西,首先它能促进整个技术的进步,就是通过标准的制定和升级,不断的去促进整个技术进步。就相当于明年,我们可能不止于38个测试用例7个维度,我们可能衍生出更多的指标体系,更细化的,更变态的去考察整个大数据产品的能力。规范市场,我们通过认证把一些优秀的产品筛选出来,为产业的发展设立一个基本的门槛,不是说随便一个人想做大数据,你随便有一套东西出来就可以说我是具有这个能力的,还是要有一定的门槛的。方便用户选型,我们促进了技术,也规范了市场,这样的话,就将大数据的细节梳理以后,以指标的方式暴露给用户,方便用户在这个过程中去衡量他的技术选型,包括去选定一些不错的厂家。

我个人也有一些思考,包括我们在这个测试认证,包括整个标准制定的过程中,我们认为衡量一个大数据产品平台至少有三个维度:一是功能完备性;二是性能;三是稳定性。我们现在联盟的标准集中在功能的完备性和性能这两点上,因为稳定性相对来说是一个比较难以去评量的,必须在长时间用户的使用过程当中才能应对到很多的问题,才能发现你软件里面出现的各种情况,包括你集群的规模扩展,从10台扩展到100台,甚至是上千节点的时候,你的软件的支持能力,这是在我们简单的测试过程当中,10台、20台的机器里面有时候是无法体现出来的。所以我们功能的完备性和性能,这两点我们联盟着重在这一块已经努力在做了。功能的完备性方面我个人认为有运维和应用性,这是非常重要的一块。还有SQL的支持,因为我们传统的企业IT人员最多用的是SQL的语句,还有权限和用户管理,在一个大的企业有很多业务的时候,你的权限和用户的管理是非常重要的,能优化出你更多的一些效率。多租户和日志的管理和审计也是相应的比较重要的一些点,这些方面我们会进一步去加强。性能方面我们考察的是两部分,一部分是产品本身的性能优劣,另一方面就是整个技术团队的调优能力,这也是你的团队能不能把整个调优的参数和经验固化下来,以一种服务的形式提供给你的客户,这也是非常关键的一种能力。这是我个人觉得衡量一款大数据产品的维度。

下一步我们有些计划,在基础能力认证的情况下,这次我们做的是串行测试,所以后续我们会更加并行。测试的流程我们会逐步的把一些通用的脚本和测试工具自动化,固定下来,统一发给大家。这个标准里面如果参加测评的话,企业会知道我们里面出现了好几个关于权限的测试用例,我们未来会在权限方面进行统一的管理,包括我们怎么样配套去做。性能方面的话,我们这次测的是整个基础能力,性能的话,我们在6月份会给大家提供出来。也就是说,6月份我们基础能力和性能这两套是全部都给大家提供出来,3月份和4月份之间的测试主要做的是基础能力的。性能的话我们会以运维为导向,考虑一些混合任务、高并发的场景。下半年开始我们还有另外一些建立MPP数据库的评测标准,还有我们未来也越来越看到技术的融合,就是Hadoop系统、Spark系统,很多的技术都在走向融合。用户可能最后不关心你到底用了什么样的技术和什么样的产品,只是一个统一的大数据平台,你把所有的技术和组件放到里面来,对我来说提供一个透明的,无感知的产品就可以了。

我们在评审过程当中也有很多评审专家给我们提出了意见,在数据治理方面,包括你有了平台以后,你的数据进来以后你怎么去管控数据质量,怎么管控原数据,整个数据处理和整理的过程,也需要一些我们的标准去规范。这是我们未来要做的一些事情。大家可以看到,也是非常贴近企业和业界的需求,工作量也非常大,但是我们有志于去推动中国产业进行这样一些活动。

未来的规划,我们其实一直对整个大数据的产品体系有比较清晰的认识,我们有底层的平台,我们的标准是停留在产品的底层平台,Hadoop、Spark、MPP产品的基础上,慢慢我们会做到数据管理层。再往上慢慢的规范可视化、BI数据和数据库,包括整个软件平台向云平台切换的时候产品特性,这些都是我们需要做的。也需要更多的厂商,更多的专家参与到我们这个事情里面。

最后是我们2016年的认证计划,5月4日到31日我们着重去完善整个标准体系性能,上半年第二批基础能力认证和性能专项认证的报名从5月开始。6月到8月我们着重对这些报名的企业做性能和基础能力的认证整个测试,是3个月时间。9月31日我们有一个评审会,我们9月份还有一个大会,这也是关于云计算的,就是可信云大会,是每年最重要的盛典,在那个大会上我们再去公布我们上半年第二批的测试和认证的结果,也会有这样一个分享。10月8日开始到12月底,我们下半年还有一批基础能力,包括Hadoop、MPP数据库的认证,我们也会同步去搞。这是我们整个的计划。我所有的分享到此结束,感谢大家,谢谢!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2016-05-04 11:12:49
大数据资讯 2016大数据产业峰会正式落下帷幕
2016年4月28日,由工业和信息化部指导,中国信息通信研究院主办的2016大数据产业峰会在北京国际会议中心圆满落幕。峰会历时两天,包括全体大会及13个分论坛,演讲专家超100 <详情>
2016-04-29 13:35:24
大数据资讯 2016大数据产业峰会:高端嘉宾云集纵论大数据发展趋势
国家“十三五”规划纲要中指出,要全面实施国家大数据战略,将大数据作为推动工业、农业等产业转型的基础性战略资源。促进大数据的发展,加快推动数据资源共享、开放和开发 <详情>
2016-04-29 13:33:00
大数据资讯 国家政策支持大数据发展2016大数据产业峰会将召开
大数据是国家发展的战略资源,对大数据资源的掌控与运用能力将成为未来国家竞争力的基础。有鉴于此,2015年,中国政府发布了《促进大数据发展行动纲要》。提出了大数据的发 <详情>
2016-04-29 11:30:51
大数据资讯 北京大学黄罡:政府大数据开放共享的挑战和机遇
4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午,在数据中心联盟、中国智慧城市产业技术创新 <详情>
2016-04-29 11:22:00
大数据资讯 北京航空航天大学吕卫锋:智慧城市中的大数据应用
4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午,在数据中心联盟、中国智慧城市产业技术创新 <详情>