中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。
在27日下午的“大数据技术与产品创新”论坛中,北京明略软件系统有限公司联合创始人兼CTO冯是聪博士分享了明略大数据安全平台核心技术。
明略数据联合创始人兼CTO 冯是聪
以下是冯是聪博士演讲实录:
冯是聪:
首先感谢数据中心联盟给我们提供这个机会,让我们分享我们的大数据平台。我们与数据中心联盟合作可以说是十分密切,就在今日上午我们在数据中心联盟也通过了评测并一同签署了数据声明。
作为明略数据CTO我分享的内容更偏技术一些,首先向各位嘉宾介绍一下明略:我们公司是一家专注于关系挖掘的大数据解决方案提供商。其中有两个关键词,一个是关系挖掘。大家知道,自然界的关系都是由点和边组成的,在座的每一个人都是一个点,人与人之间的关系就是一个边,在任何领域都有关系挖掘。另外,我们提供解决方案,我们不仅提供产品,我们还会根据客户业务问题,有针对性的提供解决方案,在这过程中,明略也会派我们的驻场数据科学家为客户现场答疑解惑,我们在提供解决方案的同时,也提供驻场数据科学家服务,这也是我们跟很多厂商大的区别。
明略成立于2014年初,在这两年的发展中,我们不断的积累大数据方面的经验,并先后自主研发了4款产品,分别是大数据安全平台MDP,围绕数据关联关系挖掘产品SCOPA和分布式数据挖掘系统DataInsight,以及面向大数据的BI产品Discovery.很多客户找到我们,我们会根据客户的业务特点,给他定制化地提供一个解决方案。这个解决方案可能会涉及到我们这4款产品,我们这里跟很多厂商大的区别是,我们是深入业务,帮助客户解决实际业务问题,而不仅仅是把产品售卖给客户。
因时间关系,我就先简单介绍一下我们大数据安全平台MDP最核心的五个特性。
首先是关于MDP平台架构的概述,MDP平台架构共分为四层,浅蓝色的是开源社区的部分。深颜色的是我们自己开发的,在自己开发的过程当中可以看到我们有几个特点,我们这里有一个可视化运维。如果您有机群是几万台或者是几百台机器搭成的,假如没有一个很强的运维平台,那么您将会面临很大问题,严重的话很有可能导致无法继续运营。其次,MDP做到了很好的安全性,我们这几年服务的客户基本上都是中大型客户,每一个大型的客户数据安全是非常重要的,我后面会详细介绍。我们做了全员控制,还有数据运维,这里面有各种各样的特点,因为时间的关系我就不一一介绍了。
明略MDP特性之安全性
我们认为做大数据首先一定要解决安全问题,因为大数据不像别的数据,它大的一个特点是把分散在各个信息孤岛的数据聚集起来,统一管理。在过去数据丢失的时候,可能仅会影响公司的一个部门,但是当我们把数据全部集成在一起时,一旦丢失,所有的数据都可能丢失。尤其是公安等特殊领域,对数据的安全性要求是第一位的,如果安全性不过关,肯定是不能用的,我们这边毫不谦虚的说,我们达到了军工级的要求。我们的MDP产品有一个完整的安全架构体系,比如身份认证,加密解密,数据访问和审计,等等。这个体系有很多的特点,因为时间的关系我只介绍三个特点。
大家都知道大数据平台基本上都来源于开源社区。在开源社区版中,系统管理员和上层应用之间的权限管理没有分开,是合在一起的。如果是运维管理员的话,完全可以看到平台上各种应用的数据,这其实在很多条件下是非常不安全的。举一个简单的例子,假设我是一个公安局局长,公安局的所有数据都放在大数据平台上,那么运维管理员就可以知道局长、甚至部长的所有数据,其实这是非常不安全的。我们第一个做的事情就是把这个权限分离了,运维人员只能运维这个机器,不能看到上层应用的数据。我们因为这个数据分开了,即使我们的开发人员,他也不能看到不该看的数据,这样也能保证开发人员在现场实施的过程中看不到所有的数据,从而保障了数据的安全性。
我们在做查询引擎时,遇到的问题就是客户需要进行行与列同时的访问控制,但目前很多引擎也只能做到按列访问。为更好地解决客户的这个问题,我们研究出了行和列同时访问的引擎,并申请了三个专利,我们这也是全球第一家可以做出来的行和列同时访问的大数据企业。就是你如果在访问一个数据的时候,我们自动地加上行访问的控制,我们把查询引擎改掉了。在开发人员,不知道需要知道背后的权限管理是什么样的。比如说一个机构很大,几万人,可以自动通过LDAP加入权限管理。这样,不管是银行普通的办事人员还是行长,还是总行的人,每一次数据访问,都可以做到行和列的同时控制。
对于大数据我们做了一个安全的审计,对于任何一个数据,只要做了增加、删除、修改操作,甚至是访问,我们都可以记住日志。数据一旦出现问题,我们可以做非常方便地审计。这里面可以看到,我们在数据审计,包括文件系统,包括所有的部署运维,比如启动一个服务,停掉一个服务,增加一条信息,删除一条信息,上面跑的硬件、软件、数据、服务,这四个方面我们全部都做了日志,都可以随时审计。就是你只要做了任何一个操作,一旦做过,一定会留下痕迹,很多要求苛刻的客户都非常愿意购买这个特性。
明略MDP特性之高可用性
软件现在分为两类,一类是运营商级别的软件,一类是非运营商级别。运营商对于高可用性是非常苛刻的,因为他要求你7×24小时,我任何时候访问这个系统不会有任何问题。比如一个1集群有100个节点,其中有一个节点因为故障断掉了,过一段时间把那个节点的故障排除了,重新启动,上面跑的服务都可以自动恢复,数据也都可以保持一致,这个要求是非常苛刻的。大家知道,在开源社区里面有比较常见的一些服务,比如说Hbase、Hive等等都已经做了高可用性。但是对于右边的这些服务基本上都没有,比如Impala、Kerberos、LDAP、Flume等等,这个里面就面临一个很常见的场景,就是如果发现100个节点的集群里面,其中2个节点停掉了,不能因为2个节点影响到整个机群的服务。还有,比如把这个机器下面的网线拔掉,过一会儿再插上去,能保证插上去之后,数据能够自动恢复。还有一个就是对于硬盘,如果这个硬盘坏掉了,操作系统一定会收到这个故障信号。但是运营商测我们系统的时候是怎么测的呢?他就在硬盘正常运转的时候把硬盘拔掉,这个时候操作系统是没有收到故障信号的,过一会儿再插上去。还要求硬盘上的数据还是一致的,这些非常严苛的要求都是高可用性。除了常见的Hive、Hbase,我们把自己做的各种服务,全部都做了高可用性,从而保证我们的服务是高可用的。
我们在做服务调度的时候,我们用了一个Everything On Yarn的特性,任何一个用户使用一个服务的时候,他可能调动了很多的服务,可能把所有的资源都消耗掉,这个时候就非常危险,会导致后起的服务因为分配不到资源而被饿死。我们这样做了以后,就可以保证其中任何一个服务都可以通过这个来调度资源,就会保证一个太重服务不把其他的服务给饿死了。
明略MDP特性之易用性
我们所有的运维都是不需要任何脚本,也不需要任何代码。还有我们有一个模块是Dataone,这个跟我们刚才讲的那个运维平台NoahArk差不多,非常类似,都是可视化的。我们所有的数据迁移都是模板化、向导化的,你只需不停地点下一步就可以了,所有的数据迁移就可以完成了。
明略MDP特性之开放性
我们所有的组件都可以修改,所有的开源组件都是来自于开源社区,这就保证了客户不会被某一个厂家绑定,随时可以自主地升级系统,自主地添加组件,这样就是一个开放性,我们不是一个闭环的产品。
明略MDP特性之高性能
高性能是我们非常自豪的,我们当时有一个客户,他当时说有5千亿的话单,要求在秒级查出来,他考察了很多厂商,最后是我们给他解决掉了。大家可以随便估算一下,这5千亿条的记录,秒级响应得,需要什么样的技术,当然只有懂技术的才知道这个难度。
因为时间的关系,大概给大家简单介绍了一下我们MDP高性能、高可用、高安全、易用性、开放性等特性,谢谢大家!