9月1日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在9月2日下午的大数据分论坛上,中国信息通信研究院技术与标准研究所大数据产品认证负责人姜春宇发表了题为《第三批大数据产品能力认证情况综述》的演讲。
中国信息通信研究院技术与标准研究所大数据产品认证负责人 姜春宇
以下是演讲实录:
今年是第二次站在这里,我们今年测评的节奏比较快一些,三四月份完成了一批,六七八又完成了第三期,今年还会完成第四期。大数据发展的节奏比较快,所以我们的认证和测算也是在不断的摸索和前进的过程。我是来自中国信息通信研究院的姜春宇,很荣幸给大家介绍第三批大数据产品能力认证的情况。
主要两个部分,一个是认证情况的介绍,第二部分是我们的总结和下一步的计划。
首先,我们回顾一下大数据产品能力认证的历程。去年6到8月份了第一批,是华为,移动,星环,中兴,ucloud5家企业,今年Hadoop,,Spark数据基础能力认证是6家企业,现在是大数据基础能力和性能专项6家企业,第四批是数据库基础能力和性能认证,是今年年底。
这是第三批大数据产品能力认证的评测对象和指标,分为基础能力,性能专项,基础能力有七个维度,性能专项有四大任务。6到8月份我们看到了6家厂商参与了,其中国双科技参与基础能力认证,华为,华三,腾讯云,星环,百分点等5家参与了商用版。
我们看基础能力认证体系,三四月份公布过,这样的变化不是特别大,以七大项,其中黄色的是可选,其它的是必测。第四批的评估体系有稍微的修改,但是不会太大,认证的流程,这边是认证的流程,这边是评审的流程。认证的话,首先是报名,其次是我们的审核材料,测试专家去现场审核,给出一个测试的结论,引入企业的互评,最后是对评审通过的一些企业和产品我们颁发通过的证书,具体的评审流程在右边,基础能力的审核方法从五个方面,包括软件的版本。这是这批通过大数据产品能力认证的两家产品,这是两个厂商的完成情况,百分点完成了28项预测和10项选侧,国双也是一样。今年第二批的时候我们会看到一些厂商还没有完全完成选测,但是现在来看,这两家的完成度都非常高,这说明我们的标准技术的牵引已经起到了作用。
另外,我们观察到,根据自己的业务的不同,厂商的产品呈现出一些特点,比如说百分点趋向数据流管理数据。国双更偏向云计算,可视化数据流降低平台的管理成本和门槛。数据管理的话,你会用到不同的数据架构,数据的管理非常重要。
非常重要的一点,流计算也是用户用的比较多的。一些分析平台,为机器学习,深度学习,分析平台,这也是未来的方向。包括一些与云计算融合的趋势,也是在加剧。市还有性能专项,有SQL,NOSQL,机器学习,MR任务。在SQL任务方面,我们选了5个query,是从负载的代表性上,报表任务,交互类任务,我们跟这些标准的厂商是一起选择的,nosql,我们选择HBase工具,也是因为测试周期有限,95%的读,5%的写,还有50%的读和50%的写,还有读、更改、写。MR任务,我们选了terasort,我们一直以来坚持的标准是1TB的数据量。机器学习我们选择了Kmeans和贝叶斯。数据规模,下一步可以承载30TB的能力,是也17个维度表,7个事实表构成的,本次5嗯个语句,涉及了13个表,这是SQL任务。HBase是和去年一样的,是2亿条数据,从十个客户端,每个客户端2亿条数据,这样的话,大概一条数据是1KB的大小,十个客户端接近2TB。terasrot是29TB,机器学习的负载是中科院的数据。
测试环境,去年是22台戴尔R7300服务器,今年又买了10台联想R450服务器。审核方式与步骤,可以看到性能的测试比功能的测试要严格很多,因为涉及到的点比较多,也比较敏感。审核方法和步骤,测前检查输入检查,过程检查和结果检查,文化留存。非常仔细和详细的,我们争取做到了在评审的时候,如果有质疑,我们所有的结果都可以复写的原则。
具体的审核,可以看到数据大小,表的检查,表行的高语句,表和列的内容检查,包括执行语句要进行一些对比,我们要清空缓存。
参与本皮性能专项认证的产品是五间,新华三,腾讯,北京东方金信,星环和百分点。大家可以看到性能的部分测试结果,这是TPC-DS,执行的时间量都在百秒内,可以看到,上下两个图可以看出来,第二个SQL47最优和中位的差别很大,说明这个是比较难的,有的测的特别好,有的测的特别不好。还有一个是SQL71,它的标准差也是比较高的,说明大家在这块也是差距比较大的。SQL82,53和84的标准方差较小,说明大家在这三个水平是比较接近的,而且这三个任务是相对来说没那么费时的。
性能测试的YCSB分别模拟了写入,并发写,模拟了更新任务比较重的场景,模拟了度曲2数据再更改,再写回的场景。可以看一下,这块是谁的操作数越大,谁就越厉害,这不是时间维度来衡量的,刚才的是谁的时间越短越快,这块美妙的操作数,最优的是175万美妙的操作数,独占大比例的是148万每秒的操作数,读写各半的是164万,最后一个是7万。可以看到最优的往往在百万级别的。标准方差也可以看到,厉害的有非常厉害的,不厉害的有特别差的。这块应该是以后参测厂家应该注意的。这块可能大家有的不太熟悉,做的不太好。
这块是YCSB执行的单位,可以看到执行的难以程度,总体来说,写是最简单的,因为它的任务是比较单一的,读的话,还有95%是读,还有5%的更新。5%的各半稍微难一点,这两个是相当的,最慢的是read wand wwrite,我对比了一下,它总归写了2亿条数据,但是modify像写了2亿,下面还有1亿,它的操作数比别的多,所以他操作的慢,所以这也解释通。所以总体来看,写是最简单的,最容易的,中间这两个都差不多,第二个和第三个是差不多50分钟左右,最后一个是80分钟。可以看到YCSB的耗时也是非常厉害的,在小时级别以上。这是对厂商参加测评的时候负荷是非常大的。
看看机器学习,Kmeans是最优是272,中位是913,标准方差是572,这块大家的水平差距特别大,贝叶斯最优是46,它的差别相对小一些,因为执行时间是比较少的,标准方差也比较低。这块我们未来会增加它的难度,因为数据量小的话,大家的差别看不出来。
terasort比较有意思,去年是13.6TB最后执行时间是在8000多秒,2个小时多一点。这边是32个节点,等于说节点数扩了一倍多一点点,数据规模也是差不多它的两倍多一点点。发现去年的15台结点算下来151703,画到图上简单来看,并没有呈现一个完全线性的扩展,或者是一个线性可比性。而有两种解释,一种是本身terasort或者是Hadoop数据扩展就不会出现线性的扩展。另外,最年的最优的测试没有去年测试好。
terasort最优是10083左右,中位值是3小时,这说明这个测试对大家的考验还是比较大的,因为准方差差不多是1434,一个周期是十个小时,一个测试是一次就3个小时,一天也没有多少时间。整个测试的周期,我们七天的时间还是非常的紧张的。
总结和下一步的计划。
性能方面有一些优化的思路。硬件的调优,操作系统的调优,数据的分布均匀不均匀,代码的应用调优,核心目标是用尽所有的物理资源,不能让它闲着。关于Spark,这次SQL和机器学习大部分厂商都采用了Spark,关于Spark,我们调优也有一些总结,就是压缩和分布数据,包括资源参数,主要是包括CPU,内存比例的关系,这块需要大家常常去摸索,得出一些经验值。很重要的是要通过资源的监控不停的反馈这次调优的参数比例是不是合理,这跟算法的调优都很像。
Hadoop也是主要是压缩任务自数据,还有资源参数的调优。HBase涉及到压缩,读写的优化的策略,还有按选择合适的线程数。
还有性能的评测总结,跟去年一样,我们在统一的平台,统一的测试数据,统一的测试供给,统一的测试周期,统一的测试规则,很多东西你能调,别人也能调,你不能调,别人也不能调,大家的规则是一样的。在我们这就是统一的规则,大家能调的就都调,不能调的就都不能调。大家看到我们评测的应是统一的思路。考察的结果一个是产品本身的性能,有稳定性,包括它的易部署性,包括易运维性,还有组建本身的性能。还有是考察参测团队综合使用大数据平台的能力,包括你环境部署与集群规划,测试工具的使用,多任务调优的能力,包括怎么安排你的测试的进度,先测哪些,后测哪些。最后是集群的故障处理和运行维护。在我们的测试中很多集群出现了宕机,因为你是在测性能的极限值。可以看出考察的是产品和调优团队整个的能力。所以考察上是比较全面,综合。
我们再总结一下困难和特点,首先是任务重,周期紧,我们看到七天的测试周期里,包括措施系统的安装,平台的安装,数据的生成,包括我们审核其它的举证,我们看到terasort中位执行时间是3小时,HBase任务中位执行时间是29,54,50,39分钟,另外是覆盖性,覆盖了业务系统里面的典型的一些任务。
第二,我们从来没在国内或者是国外看到类似的32台集群规模的配置,使用上BT的数据规模的公开的业界的测试。所以我们处于业界比较领先的认证。我们审核的这些取证的这些图,测试过程是非常的严格,我们宁可多减一些,宁可多省一些。另外,评审也是的严格,行业客户和业界专家倾听、质疑、答辩。
我们做陈鹤的评测和任何的认证都是存在不足的,我们也承认还有一些局限性的地方,比如说我们现在做的是单向机制,却说对混合负载的情况。因为你不可能单跑SQL的任务,肯定是多种场景混跑,这些事情我们是缺少的。另外,我们承认现场人员的前期准备,平时的积累和现场的发挥对测试结果有一定的影响,就像高考一样,肯定是有一些临场发挥和机会在里面的。
另外也和企业的投入资源有关系,有的企业可能人不多,但是全部砸到这个项目上,有的且可能厉害的人很多,但是没有派出来,这都是有可能的。
再一个,由于数据生成的限制,我们采用的工具大多数是开源的工具,我们一直以来都想做场景化的,行业化的尝试,这块我们未来会逐步跟厂商和客户再去进一步的推进场景化的。
还有周期的限制,我们无法进一步的对稳定性作出考量,一个系统在一个月高负载下的情况。另外是机器学习的数据量略小。
下一步我们的计划,我们会引入一些数据流可视化,统一考虑权限管理,还有数据管理功能,流计算。还有性能,支持跟SQL更紧密兼容性。我们一直以来是想以任务为导向,寻找行业的性能评测,我们现在已经在做评测的标准,第四批会加入MPP数据库的评测。这是下一步的计划。
认证报名马上要启动第四批了,10月8日到12月31日会做第四批基础能力和性能专项。包括Hadoop与MPP数据库产品。总之,这是我们一直会坚持做下去的事情,我们也希望成为中国的比较权威,或者是比较领先的大数据技术产品的评测机构。也会以此为我们的愿景,一直践行这些事情,帮助大家选型也罢,评估不同的开源技术,这是我们的愿景。
未来的规划,Hadoop和Spark已经做了,MPP下一批也有了,数据管理的功能,我们会慢慢的在这些平台上见到。还有一些BI和算法。这是我们的愿景规划图。今天我的分享就到此结束。谢谢。