随着大数据的发展,从银行到P2P再到保险、证券等,越来越多的金融企业开始建设自己的大数据平台。传统上对于数据的管理,金融界是有经验的。

但在当前以Hadoop为基础的大数据平台,接触数据的人更多,数据使用的更频繁,数据的内外交互实时,数据种类更复杂,对安全带来了更严峻的挑战。

从金融业态上来说,包括征信、消费金融、P2P、众筹、互联网银行、互联网保险等金融企业,都会需要大数据平台来支撑业务需要。

金融大数据的安全有三个很重要的工作内容,分别是安全管理及监管合规、数据安全、业务安全。具体到实际的安全映射上,分为以下四类。

24

 

一、安全管理

金融机构是属于被强监管的机构,很多业务都需要牌照才能开展。在安全领域保持监管层的汇报和日常沟通,是工作量不大,但需持续进行的工作。

监管机构一般会有现场监管和非现场监管,注意及时、准确的填写内容,利用现场监管的机会,充分展示安全保障能力。

金融监管由于行业特点,普遍比较保守,对于新技术的应用较为谨慎,例如人脸识别、二维码付款、大数据风控等新型技术,不建议在汇报沟通中过多渲染。这里点到为止不再多谈。

主管机构在监管层面,目前主要还是看安全制度、信息安全等级保护评测。等级保护测评无需多说。安全制度层面,由于不同金融业态对应不同的安全管理要求,需要结合专业条线的安全管理制度来开展。

有些机构为了取得更多安全证书,会去拿一些国外的安全体系认证,这在监管层面不是很认可,我自己的建议是,除非有国外机构的业务,或者真正需要借证书来完善自己的安全管理体系,否则这个证书不用过于强调。

除监管之外,安全管理还有一个重要内容是传递安全的信任感。一个平台是否安全是投资者非常关心的一个角度,平台安全可以分为资金安全和信息安全,而信息安全则需要传递这种信心。

如果一个平台被黑客攻击,或者羊毛党大量聚集,或者出现批量的受害者,这对平台的打击是致命的。在安全信心的传递上,一是用人民群众喜闻乐见的形式在平台上宣传,二是要处理好应急事件,尤其在公关层面。

二、生产安全

金融的安全运维和研发安全上,与其他类型机构相比,安全要求相对较高一些。但本质上并无较大差异,本文也不在这里介绍。主要探讨大数据平台安全。

一个简单大数据平台示意图如下:

25

 

整个大数据平台可分为三大块。

1、 数据源

一个大数据平台,必然面临这种形式的数据接入,数据有结构化的非结构化的、爬虫数据、上报数据、图片数据等各类格式。数据又有个人身份信息、支付、移动数据、法院信息等各种类。数据还根据来源有组织内和组织外。

根据接入方式有互联网、专网等。这里需要考虑存网络边界风险。

在一个大型集团的大数据平台,每天都会有各种各样的数据接入需求。安全部门在这里要有统一、强制的介入方式,包括连接类型是API、FTP还是其他类型。包括数据流量预测。包括接入的鉴权方式和证书管理。

包括使用期限和下线管理。建议是形成统一的数据接入平台进行管理,按照不同的数据保密性级别分类处理,约定统一的安全强度。这件事要早做,越晚做越痛苦,等到业务发展起来,无数的接口需要梳理的时候就积重难返了。

2、大数据平台安全

2.1基础设施安全

大数据平台首先要考虑自身基础设施安全。由于金融属性,大数据平台不太会考虑使用云的形式。另外,取决于搭建大数据平台的技术及数据库,还需要进行针对Hadoop、mogodb、nosql等的安全管理。

需要指出的是,大数据设计的初衷并不是为了安全考虑,整个安全管理机制并不成熟,比如Hadoop早期版本缺少身份认证机制、节点之间的传输无法加密,后续的版本提供了此类的机制之后,升级又可能导致Hadoop不可用。NoSQL数据库则缺乏一些传统数据库提供的安全功能,比如基于角色的访问控制功能。

具体而言,应用层面的安全要考虑一些比较新的版本来搭建大数据平台,如果是已有平台,可以使用Cloudera Sentry、DataStax Enterpris、Accumulo这一类应用安全的加强。日志的统一监控可以使用Apache Oozie。

由于大数据平台具有较多的集群服务器,物理位置可能分布式,所以需要在运维安全上考虑加固,使用统一的、最小化权限的版本进行自动化配置。

大数据平台的账户管理也是重要的一部分。密码强壮度的控制、离职休假员工的账户回收、登录失败限制,对账户的监控等等日常工作需要定期审计。

但最核心的内容,是做好安全域管理,做好边界防控,把大数据平台在内部盒子里运转。

2.2敏感数据保护

大型金融集团里,大数据会包括来自各种内外部机构的数据。可能会包括保险、银行、证券、支付等多种机构,而这其中每个机构都面临着不同的行业监管要求,同时又需要有各种的机构访问。

种种数据的行业要求,加上产品经理、开发等各业务单元的访问,每个数据表甚至字段的访问,都需要建立在个案分析的基础上进行安全控制。

因此首先要对数据进行分类分级管理,如下图。一般的分类分级可以参照传统安全做法,并无太大区别。

但要注意由于大数据的来源非常丰富,不能仅靠人工去判定数据级别,需要有自动发现敏感数据的工具,市面上有一些通用工具可以用,但从长远来看,数据发现还需要有自己可定义的工具为佳。

对数据的分级,不仅要考虑到表,还要到字段级别的授权。除此之外还有数据融合的问题,基于业务的需要,例如在风控领域需要对用户画像,就需要综合多个类别级别的数据进行开发,多个数据融合的时候,对数据的控制要按照高级来进行。

26

 

2.3数据脱敏

大数据平台最终是为业务服务的,在产品的生产过程中,多个团队都需要使用大数据平台进行分析、开发、测试工作。大数据平台中包含了大量敏感数据,如何能够既不影响业务开发,又能保障安全性,这就需要进行数据脱敏。

脱敏有几件事情要做,首先关键表关键字段的脱敏。这部分比较容易理解,例如用户的password,这就是无论何时都不能展示的。在有些行业,银行卡号、身份证等信息都需要脱敏。所谓脱敏是指隐去这些信息。

但是,脱敏不能简单的将关键信息用星号脱敏,如果一张表的name字段全是*,业务分析就无法进行了,这就需要有一个替换和映射。替换和映射的意思是:

真实的:张三,手机13900000000,身份证9999999999999

替换后:李四,手机13999999999,身份证1111111111111

而在系统内部则要建立两者之间的映射关系。这方面市场上也有产品提供,但对于大型机构来说,通用型产品远远不能满足需要,大型机构建议自行开发。

其次但某些业务的需要,例如风控案件调查,一定是需要欺诈分子的真实信息,脱敏后案件就无法跟踪下去了,这就需要有控制的对部分人员开放敏感数据,又要保证这些数据不会出去。

这种控制方法,一般是建立一个分析集群虚拟机,办公网通过堡垒机跳转,在虚机上进行操作,虚机集群则无法与外界建立联系。当然也可以选择在办公终端上进行严格终端控制,但终端层面风险敞口较大,很难做到完全控制。

同时,分析结果在很多情况下,需要对外输出。例如夺宝活动获奖用户清单,需要LIST清单进行奖励寄送,这就需要在封闭的集群中有统一出口。出口需要经过业务主管、安全团队审批,并经过加密输出,确保即使该文件被泄露,别人也无法打开内容。

2.4 数据产品输出

大多数数据会加工成产品对内外输出。有用在内部经营数据分析的产品,有向外部组织提供的数据接口,有应用产品。

所有类型的输出,都需要安全团队参与评审。而绝大多数情况下,都不需要输出明细数据,在理解对方业务需求的基础上进行标签化可以满足多数场景的需求。

例如,某基金业务的资金变化展示,这种只是汇总型的数据,可以在大数据平台计算完毕后输出。再比如资金对账数据,可以通过接口性质输出,禁止人工对账,通过在鉴权、加密上的控制来保证安全。

还有一种情况例如,客服团队需要了解CASE详情,而这些详情需要通过数据来了解。这就需要控制好信息的输出,例如CASE是由用户触发,而不是客服触发。

对客户的敏感个人信息要进行界面脱敏,外呼电话可通过隐匿后的软电话按钮呼出。这需要对客服系统进行敏感信息保护的改造。

三、办公网安全

传统金融机构对办公终端的管理都比较完善,甚至双网双机。一些互联网公司在这方面反倒有所欠缺。

终端层面的监控和防护已经是最后一道防线,也是重要的信息泄露点,因此对终端电脑的安全管控必须向金融机构的强度对标,但手段上可以不同。这里涉及到DLP、终端杀毒防木马、BYOD、邮件、上网行为管理、准入、透明加密等多方面内容,不再一一解释。

四、业务安全

在业务安全上,根据不同的业务特点会有不同的风险。刷库和倒卖是征信业务特有的风险,而账户安全则是所有业务都关心的风险,信贷风控又属于信贷类风险。

安全一直以来受重视程度不足,究其原因相对业务来说是个成本中心,而如果安全切入业务安全领域,则对整个业务带来价值,甚至可能会成为利润中心,是提高安全队伍话语权的重要法宝。

防刷库。征信公司本身的业务特点是接入各方数据,加工成产品后对外输出,典型产品如信贷黑名单,其中汇集了逾期老赖用户。这就会有下游机构进行刷库,简单可以理解为使用所有公民的身份证号进行查询。

对这种情况,需要有业务监控,根据机构大小进行分类,异常查询的,可根据人行相关要求,调阅用户授权。另外为防止意外,可进行阈值设定,超出阈值的自动BLOCK并报警。

防盗卖。下游机构在接入接口后,将数据对外转售以此牟利,并留存数据。对于这种盗卖在技术上很难防范。但可以通过下钩子的方法,放置一些特定数据。一旦这些数据在未授权机构出现,则意味有人盗卖,可以根据不同的钩子数据找到盗卖方。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>