中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。
其中在27日下午的"大数据与工业互联网"分会坛上,南大通用的副总裁、战略营销部的总经理杜国旺作了关于"互联网和工业大数据的关系"的主题演讲。
南大通用的副总裁、战略营销部的总经理杜国旺
杜总汇报一下他研究的中国制造2025的事情。
中国制造2025跟工业的变革有点关系。工业的变革有1.0、2.0、3.0、4.0,有人说中国制造2025就是工业4.0,是吗?我先把这个问题留下。研究过程中我们发现美国有工业4.0战略,美国的工业4.0是工业互联网已成为美国先进制造伙伴计划,这是美国的工业4.0的核心。同时在欧洲地区,互联网时代处于劣势,在工业4.0时代他们的思路又是什么样的?他说用信息物理系统使生产设备获得智能,使工厂成为一个实现自律分散型系统的智能工厂。这是我发现的美国模式与德国模式的差异,美国模式讲究数据聚到核心、聚到云上,形成一个工业互联网。德国模式讲究的是把数据、把流程、把智能放到终端,让一堆智能终端设备去工作。
中国干什么?中国2025发展经历了一个阶段,但是中国对2025的目标定义是这样的。讲究的是创新能力、劳动正产率、两化融合、能耗物耗与污染物排放以及形成强大的跨国公司和产业集群。我发现好像2025的目标与今天几位讲的实现的东西不一致,为什么?中国的发展2.0时代是半成熟的,3.0时代有好多都没走过,以人工为主。现在说中国制造2025就是工业4.0确实太早了。在座的刚才讲的一些他们是孤独的领跑者、领路者,但这也是一个趋势。
2015年12月23号国务院发布了《中德高端装备制造产业园建设方案》的批复文件,大量的与德国企业在合作,并且选择在了中国老工业基地沈阳的铁西区。我们就发现了未来信息化或者我的数据库支撑信息化的时候,首先要支撑的是德国模式为主。其实德国模式和美国模式差异对数据库的要求很简单,一个是数据库能放到智能设备上,我们叫做嵌入式。另外一个方面就是把它云化,放在云的基础上。
大数据支撑,中国制造2025,可以实现一个从流程驱动和数据驱动的融合。像生产线、流水线、工艺自动化都是流程驱动。工业大数据的来源,企业的数据、CRM等等系统,以及机器生产数据以及来自互联网的数据,在工业大数据中具有价值的可以为流程优化、工艺改良、故障诊断、设备维护等等提供决策的科学依据,而有一部分,是很小一部分的数据叫做SQL数据,就是过去我们见到的在企业信息化过程中产生的那一部分数据。这部分数据主要集中在企业的内部,它是引爆整个大数据产业,整个大数据价值发生的一个基础。我们的SQL数据库恰恰在储存这部分数据上有一个优势。
工业大数据有什么特点,简单说是大、快、多、高。我不多讲了,给大家讲讲故事,我们的数据库怎么支撑工业化应用。
第一个场景,设备维护的场景。在一个地方,达坂城的姑娘很出名,其实达坂城的风沙也很出名在新疆地区一过晚上7点车就不敢跑了。中国第一个风力发电厂就座落在达坂城,东西长约80公里,南北宽约15到20公里。到了那你就会发现版图很大的。现在总共有250台风车,年发电量在1800万瓦。在这样的地区,风车的叶片就成为一个主要的易损件,我们不能等它坏了以后再去换它,那有可能让风电停止很长时间,并且换它也是极其痛苦的一件事。拉叶片的车超长的车,它一走可能高速公路就容易堵了。
工作人员预测到250台风机里,有一台两个月以后叶片就要坏掉了,工作人员向叶片厂家下达了同种叶片生产的订单。250台风机可能来自于不同的厂家,每一台风机不是完全定制的。在一个风和日丽的早上,一定是一个好天气,一辆超长的货车直接从厂家拉着叶片到达了那台风机下面,与刚刚到达不久的配装车完成了换叶片的工作。这种场景是比较难实现的,或者说它需要数据库。
需要哪些数据?第一,一些基本信息。这个叶片是哪个厂家生产的、哪个型号,需要关系型数据库,都可以记录它这些信息,以及吊装更换的流程,货物生产周期,都是可以量化的。但是怎么提前两个月发现这个设备会坏,我们需要对设备的状态进行监控。叶片不是天天转的,风大了开始转,风小不转,每一个风机的工作使度,比如下大雪它是不是转了。以及表面的平整度,阻尼系数,叶轮转的时候遇到的阻力系数。发电运行状态进行数据的采集。数据的特点是格式固定,不同特性的特征采集周期不一致,采集点的数量极其多,一个风机上面采集点的数量都是成千上万的。采集到的数据需要高压缩存储,高压缩存储有一个典型的特点,第一次采到的值是这个值,第二次采到的如果跟第一次一样我就不变了。不可更改,一旦记录下来就不用更改了。预警模型,达到什么状态要提前预警告知。
必要时场景在线,比如在工业化的工厂里出现了什么故障。一家著名工控厂提到轧钢机的工控机,银行的业务可以停一小时、两小时算只顾,停15分钟不算事故,但是对于一个钢厂来说一个设备停3秒钟、2秒钟可能就是事故,为什么?钢水上来以后,如果控制系统停了一秒钟,轧钢机可能就坏掉了。遇到问题以后要提前预警,或出现问题以后要回过头来把当时的场景调出来,分析为什么会出现这种问题。一系列的数据记录都需要数据库支持时间序列特征。
风机数据采集下来怎么办,下边有一个盒子,盒子里有数据传输回来。盒子要存数据就要内嵌一个数据库,要支持嵌入式的特性。
超长的车来了以后,为什么直接走到那台风机上,它要跟地理位置信息很好的兼容。
是在一个风和日丽的时间来的,它要对地理信息等等复杂信息进行记录,这些都是非结构化的。有一款数据库产品叫做GBase 8t,它就是支持这种工业化生产需求的。
某化工集团在德国引进技术新建工厂,包括厂房建设、生产工艺等等,德国那边怎么干我把它完全搬过来怎么办。刚开始德国过来一组工程师指导,跟德国的生产效果差不多。然后这个集团说既然这样一样的做法又建了两家工厂,建完两家工厂以后发现,这两家工厂能耗比第一家工厂要高,原材料投入比第一家工厂高,就是产出怎么也赶不上第一家。
他们把德国专家叫过来分析也没戏了,怎么办?他们借了一套系统,对整个系统的运行状况、经营分析状况、生产状况进行了跟踪。这个状况的跟踪极其艰苦,要跟踪每一个工艺环节的执行时间、执行时差、温度、气压等等。跟踪之后发现他们这么多的数据与过去的记录,最初他们说找两台计算机记录下来就行了,后来发现记录不下来,这么多数据存储需要有数据库的特性。记录是用结构化的数据记录,同时它是海量运行数据存储,要支持P级,甚至EP级这样大数据量的存储。
用两台机器不行,再扩展两台、四台、六台,一直扩展到上百台,他有这样的扩展要求。
同时对所有的数据进行分析之后,用甲骨文去分析的话,可能有一个master级,执行不出来,遇到执行瓶颈,是不是每一台机器都能提供分析结果。提供无master最后汇总的需求。
最后是支持海量数据高速加载。分析系统推数据的时候要求的时间窗口很短,时间长了加载不进来就无效了、作废了。
在满足这种大数据要求的时候,我们还有一种产品叫GBase 8a mpp,支持无master大数据的查询、存储、复杂分析,金融行业有一个比较典型的例子,农行的数据仓库已经是P级数据了,上百台机器的集群了,后面移动、电信都有,工业化这一块我们希望也找到自己的落脚点。
刚才介绍了两个产品,这两个产品是南大通用做的。南大通用成立于2004年,是一家专门做国产数据库的公司。
南大核心产品有三款,一款产品是GBase 8a,基于大数据的复杂分析。另一款产品就是GBase 8t,针对交易型的数据库。还有一款是内存数据库,内存数据库是我们买了韩国内存数据库的原码以及一个团队。