中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日下午的大数据技术与产品创新分论坛中北京明略软件公司的CTO冯世聪分享了明略大数据平台核心技术。
北京明略软件公司的CTO冯世聪
以下是冯世聪演讲实录:
冯世聪:首先感谢数据中心联盟给我们提供这个机会,让我们分享我们的大数据平台。其实上午我们在数据中心联盟这边通过了评测,跟他们一起签了一个数据的声明,所以我们跟数据中心联盟合作还是非常密切的。
我说的可能比较偏技术这一块,我们公司可能有些人了解,可能有些人不是特别了解,我们公司是定位在做关系挖掘的一个大数据解决方案提供商,其中有两个关键词,一个就是关系挖掘,大家知道,在任何自然界里面,都是由点和边组成的,在座的每一个人都是一个点,人与人之间的关系就是一个边,在任何领域都有关系挖掘的领域。另外我们做解决方案,我们跟很多厂商在一起,不光是提供产品,我们是在一起针对一个特定的业务问题把这个问题解决掉,在这个解决问题的过程中需要一个解决方案,这个解决方案当中可能需要一个产品,需要我们的科学家,需要我们的服务,所以我们跟很多厂商大的区别是我们做解决方案。
这是我们公司一个简单的历史,我们公司大概是2006年,最早的时候我们成立一个公司,是做互联网广告的监测,在这个垂直领域我们做的是亚太地区第一的。在2010年的时候,我们把我们的一些系统做成大数据平台,在2014年的时候我们把公司大数据事业部独立出来成立明略公司。这个原因就是我们在做这个过程当中注意到了大量的数据问题干我们是什么都不干,一天接触到的就是5TB,除了BAT的大互联网公司,包括刚才的360公司以外,很多公司很难见到每天5TB的数据量。这么多的数据量,逼迫着我们做一个庞大的集群,我们大概有500台集群,这就要求我们自己有很强的运维能力,有很强的系统管理能力。
2006年的时候我们有了大数据的经验了,我们公司的产品很多,一共有四款。第一款是大数据平台,我们叫做MBP。我们还有数据挖掘产品,我们单独有一款产品是针对于公安。还有就是常见的所有的关联规则这种大数据,针对于选择数据超过1TB、10TB的大数据挖掘。还有我们的展示平台,相当于我们的BI工具。很多客户找到我们,我们根据客户的业务特点,给他定制化的提供一个解决方案。这个解决方案可能会用到我们四款产品,我们这里跟很多厂商大的区别是,我们是解决业务问题,而不仅仅是把产品部署给你,你自己去玩。
我的分享会偏技术一点,因为时间的关系,我可能会简单介绍一下我们大概的五个特性,我们这个产品有很多特性,我只介绍这五个。首先是公司概述,跟我们所有做大数据平台的是一样的,都有自己的产品架构。我们的架构大概是四层,浅蓝色的是开源社区的,基本上没有什么特点,都是从开源社区下来的。深颜色的是我们自己开发的,在自己开发的过程当中可以看到我们有几个特点,我们这里有一个安全运维,我想360的同事是非常有体会的,如果你机器搭几万台或者是几百台的时候,如果没有一个很强的运维平台的时候是一个灾难,廉价的机器硬件坏掉是一个常态,硬盘、CPU随时可以坏掉,如果没有一个很强的运维平台,这个集群几乎上是没有办法运营的。我们做到了安全性,360的同仁刚才也介绍了,我们这几年服务的客户基本上都是中大型客户,每一个大型的客户数据安全是非常重要的,我后面会详细介绍。我们做了全员控制,还有数据运维,这里面有各种各样的特点,因为时间的关系我就不一一介绍了。
我重点介绍的,这里面有一个产品,原来有很多历史的数据放在Oracle里面,又想实时同步到大数据平台来,我们提供了一个平台,就是原有的系统不会破坏,原油的数据还可以用,比如说ERP系统,数据在产生的过程当中,实时的可以把这些数据同步到大数据平台当中来,原有的生产系统不会有任何的影响。还有一个好处就是大数据庞大的计算能力,原来在Oracle跑不动的数据,完不成的任务可以放到这个里面。
我们觉得做大数据其实第一点一定要解决安全的问题,因为大数据不像别的数据,它大的一个特点是分散在各个信息孤岛,各个部门的数据聚集在一起。大家知道过去的数据遗漏的时候,丢掉一个部门,或者是某一个领域的数据。但是把一个数据集成在一起,一旦丢失,所有的数据都可能丢失。尤其是公安、军方对数据的安全性是第一位的,如果安全性不过关,肯定不会用,我们这边毫不谦虚的说,我们达到了军工级的要求。从这个角度来看,这里有一个完整的安全架构体系,有身份认证,包括加密解密,数据访问和审计我们都会有。这个体系有很多的特点,因为时间的关系我只介绍三个特点。
我们大家知道,大家都应用大数据平台,基本上都来源于开源社区,很多同志都知道,所有的权限里面,如果是运维的话,可以把平台上好的应用可以看到,这其实在很多条件下是非常不好的行为。举一个简单的例子,我是一个公安局局长,公安局的所有数据放在大数据平台上,运维人员可以知道这个局长、部长所有的数据,其实这是非常不好的。我们第一个做的事情就是,我们把这个权限分离了,你这个运维的人员,你也只能运维这个机器,不能看到上层应用的数据。我们因为这个数据分开了,即使开发人员,他也有自己的一个权限管理,这样保证开发人员,即使我们的人员到现场实施的时候,还看不到有些数据,就保证了数据的安全性。
我们做了一款引擎,有一个比较大的痛点,每次访问一条数据都是按列访问的,增加和删除修改都是对列进行访问。有很多客户访问的时候说,我不光是访问这一列,而且限制从第1行到第100行,这个时候就要求能够访问,我们申请了三个专利,我们是全球第一家做出来的,就是行和列同时访问。就是你如果在访问一个数据的时候,自动的是一列,我们把这个引擎改掉了,在开发人员,不知道背后的权限是什么样。比如说一个机构很大,几万人,可以自动的加入权限。不管是银行普通的办事人员还是行长,还是总行的人,每一个数据都可以控制到行和列。
我们做了一个安全的审计,对于大数据这一块,对于任何一个平台上面跑的数据,不光是服务,有很大的开源社区做的审计,但是对于我们这个数据,任何一个数据只要做增加、删除、修改,甚至是访问,我们都可以记住。一个数据一旦出现问题的时候,我们可以做非常方便的审计。一旦事件发生了,我们就可以很方便的做审计。这里面可以看到,我们在数据审计,包括文件系统,包括所有的我们安装的运维,就是启动一个服务,停掉一个服务,增加一条信息,删除一条信息,上面跑的硬件、软件、数据、服务,这四个方面我们全部都做了审计。就是你只要做了任何一个操作,一旦做过,一定会留下痕迹,很多要求苛刻的客户都非常愿意购买。
高可用性,大家知道,这里面有运营商的同仁。软件现在分为两类,一类是运营商级别的软件,一类是非运营商级别。运营商对于高可用性是非常苛刻的,因为他要求你7×24小时,我任何时候访问这个系统不会有任何问题。比如说启动一个节点,100个集群一个节点,其中有一个节点因为停电被断掉了,我过一段时间把那个节点的电源再开了,重新启动,上面跑的服务数据都可以保存一致,这是要求非常苛刻的。大家知道,在开源社区里面有比较常见的一些服务,比如说Hbase、Hive等等,但是对于右边的这些基本上都没有,比如Impala、Kerberos、LDAP、Flume等等,这个里面就面临一个很常见的场景,就是如果发现这个集群里面有100台机器,其中2个停掉了,不能因为2个节点影响其他的服务。要做到的就是把这个机器下面的网线拔掉,过一会儿再插上去,能保证插上去的数据能够恢复。还有一个就是对于硬盘,如果这个硬盘坏掉了,操作系统一定会收到这个信号。但是运营商测我们的时候是怎么测的?他就说我这个硬盘在正常运转的时候把硬盘拔掉,这个时候操作系统是没有信号的,过一会儿再插上去,导致数据还是一致,这些非常严苛的设置都是高可用的要求。我们除了常见的Hive、Hbase这种,我们自己做的这种服务,我们考虑所有的服务都可以用,保证我们的服务是高可用的。
我们在开源社区做一些服务调度的时候,我们用了一个Everything On Yarn的特点,任何一个用户使用一个服务的时候,他可能调动了很多的服务,可能把所有的资源都分散掉,这个时候就非常特点。我们这样做了以后,就可以保证其中任何一个服务都可以通过这个来调动,就不会保证一个服务太重把其他的服务遏制了。
我们的平台高可用,最关键的元数据都做了高可用。易用性不用说,我们所有的运维都是不需要任何脚本,也不需要任何代码。这个跟我们刚才讲的那个差不多,非常类似,就是我们所有的数据迁移都是模板化、定制化的,点下一步就可以了,所有的数据迁移就完成了。
开放性,这个我们跟360也是不谋而合,我们所有的组件都可以修改,所有的代码都是在外部修改,保证不会被某一个厂家绑定,随时可以自主的升级系统,自主的可以添加组件,这样就是一个开放性,我们不是一个闭环的产品。
高性能是我们非常自豪的,我们当时有一个客户,是国家一个安全机构的。他当时说有5千亿的话单,要求在秒级查出来,他考察了很多厂商,最后我们给他解决掉了。大家可以随便估算一下,这5千亿条记录的时候,秒级响应得需要什么样的基础。当然只有懂技术的才知道这个难度。
因为时间的关系,大概给大家介绍一下,我们MDP有几个特性,高性能、高可用、高安全、易用性。
大数据的分析与监控应用,比如高铁现在比如说车辆不管有没有问题,直接拉到检测厂检修,他说能不能帮我预测这个设备快出问题的时候,需要检修的时候再检修,避免过度检修。这是我们刚刚给中国移动做的一个事情,他要求是在一个省的地方,新的数据每天有几十个G,怎么保证高可用,这是非常有挑战性的。一是银联商务,所有的平台挖掘展示都是我们做的,大概的数据规模是100个亿,里面做了两个分析挖掘,就是做消费预测,有一个数据大厅,做各种各样的数据预测。邮政储蓄银行我们从里面做售前、售后,贷款的控制,就相当于对于银行来讲最核心的一个业务就是风险控制,我们帮助客户做了很多风险控制的工作。国美在线基本上从大数据平台,到广告投放,很多的系统都是我们做的,我们跟国美合作了四期。四川地税,这是我们中国做的第一个税务的大数据平台系统,当时我们把整个税务的所有系统作为一个税源管,税务里面有各种各样的税源进行管理。石家庄公安,这是我们非常自豪的,也是代表着下一代的情报中心。过去的所有警种,包括交警、巡警、网安都是分散的,我们现在把所有的数据聚集在一起,真正做到人坐在办公室里面,可以把犯罪分子抓到。比如说抓了吸毒人员,电信诈骗,所有的公安的业务,我们都可以给他做。我可能就分享这么多,谢谢大家!