9月1日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在9月2日下午的大数据分论坛上,新华三集团研发架构研究部系统架构师孙晓军发表了题为《大数据安全防护》的演讲。
新华三集团研发架构研究部系统架构师 孙晓军
以下是演讲实录:
大数据安全有两个方面的层面,第一,数据安全。第二是大数据安全。数据从产品到生出来到最后的消亡有三种状态,一个是在我们的存储设备系待着。第二种状态是在路上传输的状态。第三种是被使用。
大数据的安全防护,我认为前两种状态,就是在存储里息着还是在路上,它的保护的方式也比较传统。今天我主要想从大数据使用的角度来分析数据安全的新的特点。大数据时代,由于低敏感度数据的整合,造成了一些现象,比如说在很早很早之前,这种方式就有了,在报纸上,说某将军参加了某某活动,他从哪来的,或者是哪个上校的女儿跟谁结婚了。这些东西在报纸上就登了,这些敏感度是很低的。但是在30年代,英国的反战人士从德国的报纸上整理以后,分析以后,得出了希特勒上台以后整军备战的信息,他只用这样的几把剪刀就能把机密拿来,这是大数据年代在信息保密方面的问题。
另外一个是数据敏感度的增加,对我们隐私的侵犯。隐私这个词各有个的见解,我认为可以分成两部分,一个是PII个人信息识别,这些信息能用于识别个人的。第二个就是个人的属性,这两个加在一起才是隐私。比如说咱们现在总是看到代表的罪犯在飞机上压下来以后到大陆来,他是戴手铐的,这个时候一个人的脸能被识别,而且他犯了诈骗的罪行,两者结合起来才是隐私。隐私的保护,我们在比较传统的环境下只是采用了加密的方法,把PII加密以后就可以了。但是在大数据的背景下,隐私可能有一些啊问题,因为隐私保护在传统的或者是现在的破坏数据完整性就是隐私保护的最主要的手段。就是PII跟那个人的属性的结合,传统的方式就是破坏数据的完整性。但是大数数据混合使用下,我们可以通过数据整合恢复数据的完整性,这个时候个人的隐私还是保证不了的,这也是在大数据环境下对个人隐私的挑战。
第二个挑战,就是大数据整个应用成功的属性是万众创新,并不是几个科学家在里面想一想就能促进整个的大数据的创新的成功。这个理念还是克强总理提出的万众创新,每个人都从自己的角度上去理解数据的内涵,进行一些数据的分析。这样的话,这种局面就打破了传统的数据安全方面的最基本的理念,就是正确率,或者是分类工具。我们的数据在传统的组织里,一般认为首先它有部门属性的,研发的,市场的数据。第二部分,再把某一个领域里的数据按照什么公开,保密,进行一个分级。在这样的体系下,一般的数据的季度来讲,增加用户,再给用户加到用户组里,采用这样的体系,这样的体系是比较僵硬的。这样的话,传统的体系也受到了很大的挑战。
第三个方面,数据驱动业务。造成的数据的可信性成为了重要的安全对象。现在虽然说没有实现,但是我们一般开大数据的会议上都会讲,未来的经济是数据驱动的。但是我们从一些互联网的厂家上就能看到这个苗头;比如说像这样的某一个搜索厂家,对他来讲,他的排名,在搜索结果里的排名是一项很重要的业务,是特别主要的来源。但是,在这种情况下,每个人都希望我们的排名在上面,在前三页,好是能排上,出现了很多这样的搜索引擎优化的业务。他们就是分析某个厂商的排序算法,然后针对这些算法的弱点,有意识的编造一些数据输入到排序算法里,把他的网站排名提高起来,这个时候对这个厂家,对这样的搜索引擎的公司的信誉度打击是非常之大的,会直接影响他的销售。那么在大数据的年代里数据的可信性怎么判断是很重要的问题。
我们提到三个挑战,华三对于数据安全有自己思考,在方法论方面和具体工作方面也投入了经历。华把数据安全体系分成两块,第一块就是最核心的,就是数据。从数据的产生一直到消亡的各个阶段进行了分析。最主要的安全原因是使用,我们在每个阶段里,从数据使用的角度上,我们给它数据过程的角度分析数据的安全问题。
拟稿,我们对任何这样的阶段进行数据过程的建模,在每个阶段里,这个数据的处理过程应该是怎么样的,然后根据这个模型提出在这个阶段里数据安全的目的,策略,重点的方向,以及方法。提出来这么一套方法论。这也是比较新的,目前方法论也在搞,我们华三公司是主要的参与开发者之一。
再一个是大数据平台,从我们的角度来看,跟传统的IT系统变化不是很大。只是由于大数据的思维和属性造成了各方面的性能有一些问题。所以说在这块,还有云化,虚拟化的问题,所以在这块我们主要的是针对IT信息系统的体系去考虑安全。比如说云安全的信息已经发布了。
这块是我们对基础平台的从等保的角度上看的,从最基础最传统的结构,这个组成了大数据的平台,在这皮上,我们已经传统的等保体系方法论去规划。这块是在传统的等保体系进行了优化产生的体系。具体的方面比较多,我只是讲一下其中的一个案例。当然华三公司是以网络起家的公司,所以我从网络讲讲。
主要还是安全的三个节,第一个事前,事中,事后,通过各种各样的控制,达到这样的目标,一体化的目标。这只是其中的一个维度。下面是大数据本身的安全,我们从大数据组织架构的角度上分析大数据安全的防护情况。我们在一般的项目里,大家都可以知道,我们整个组织的数据架构大概可以分成几块,第一块是组织外部的数据,第二部分是域内。域外是各个兄弟单位的数据交换,另外是社会书记的抓取。域内不在大数据安全的考虑范围内,另外一个是数据分析系统的数据安全的域,从数据安全域的角度来讲,采用的是物理隔离的方式。数据只能往一个方向走。在这块,我们主要考虑的还不是安全方面的问题,而是数据的同步对业务系统造成的数据的稳定性的影响。所以说,基本上我们在这里采取数据缓存区,有点像是一数据防火墙的,业务系统跟数据分析系统分开了,它的业务系统的运作不会影响到业务安全。
下面是从数据生命周期的安全的角度上对安全进行分析,第一,数据处理的阶段。
这个阶段主要是从数据处理这个环节上分析数据安全,所以说我们对整个的数据处理的过程进行一个建模。数据处理有三块,一个部分是数据的生产,我们现在的数据处理的过程基本上可以认为是数据的生产、消费、提供服务地过程。所以有数据生产、消费。消费的过程是数据分析,大家觉得数据分析怎么会放在数据处理里。数据的应用领域或者是分析,主要是注重数据消费,数据分析的逻辑。但是数据分析最终的执行还是要在数据处理地框架里进行的。所以说,在这样的环节里,从使用的角度上来讲,这里防范的核心的目标就是数据的滥用。也就是说在授权以内的数据,使用范围的聚合,分析,产生了保密性和隐私方面的一些问题。所以说,从开发的角度上来讲,防止数据滥用,整个开发的管理流程,对数据的申请和处理有一个严格的规范。
另外,从管理的角度上,各方面的事前,事中,事后的手段。另外对开发出来的数据应用如何进行控制。在数据处理阶段最主要的是防止数据的滥用,基本的方法,就是好的数据可用不可见,这样的话就防止了数据违法方面。
在数据应用方面,大概的模型是这样的,刚才讲的是数据处理,可用不可见的实现基本上是以数据服务封装的形式出现的。一类数据操作服务,另外一类是数据的评估服务。当然,数据操作服务提供里数据可用不可见的最基本的服务。对于上面来讲,对于应用的开发,这方面是最主要的方面,所以说对应用的开发的一个申请、审批、最后的上线、使用,这些都是我们的数据安全的检测点。服务于相应的系统,解决数据安全方面的问题。
前面是从数据的生命周期来分析大数据的安全,下面是在大数据的年代里,我们以大数据的观点治理大数据的安全,这个角度上,我们一个安全系统,应该是一个闭环系统,这个闭环系统大概是这么几个阶段,第一个是防护阶段,做好城墙。第二个是事中的监控阶段,第三个是出了问题以后的响应阶段,第四个是恢复阶段。我们以前的数据安全系统比较薄弱的是数据的监视和控制,或者是IT系统安全方面的监视和控制做的比较弱。
在这个方面,我们会把大数据引进来,在大数据的监管平台,其实是在我们安全大数据平台做的对大数据的安全进行的监控。公司主要提供了闭环系统,这是发现了异常,进入我们的响应系统,整个形成了一个闭环的过程。
这里面是讲我们的产品,数据安全方面,主要是通过我们的大数据平台上的安全平台进行保护。在这里整个功能都落到这个上面。
这是我们的平台安全,用一套捆绑的系统,支撑一些硬件,上面的软件是实现平台的安全。从软件、硬件两个方面实现了大数据的安全架构体系。我的汇报就是这些,谢谢大家。