数据全生命周期管理依据不同数据在不同阶段的价值,实施不同的管理策略,用于管理数据在整个生命周期内的流动,根据价值适配存储资源。日前,中国移动信息技术中心大数据平台部副总经理江勇在专访时表示,中国移动结合梧桐大数据平台及应用情况,提出了按照数据域的划分来对数据实施分集群管理的策略,通过科学的管理维护数据全生命周期,深化运维体系改革,降低数据运维成本,提高数据使用率,推进运维智能化转型;在安全合规的前提下,强化数据赋能管理,推进数据资源依法向资产、资本转变。
建立数据全生命周期管理规范 实行分级存储管理
中国移动在依法合规汇聚、融合全域数据的过程中,积累了越来越庞大的数据,这是数字经济时代的“新石油”。作为数字中国、智慧社会建设的主力军,如何更加科学有效地管理和使用数据,利用现有资源实现数据资产价值的大化,赋能企业和社会数智化转型,对于中国移动来说是一个非常重要的课题。
数据全生命周期管理,是中国移动数据治理的核心领域之一。据悉,中国移动建立了一套完整的数据标准管理体系——数据全生命周期管理规范,该管理规范提出了数据全生命周期管理的中长期规划,通过对数据进行冷热温划分,依托不同性能、不同成本的存储介质,结合东数西算战略布局,来实现数据的分类分级存储管理。冷热温划分的目的,在于控制成本,优化资源配置。冷热温的划分依据主要是数据的访问频次,数据的热度标签之间可进行动态转换。通常情况下,热数据需要具备较好的硬件配置,比如高性能CPU、SSD固态硬盘等;冷温数据可采用中低成本、中性能的介质存储,比如HDD机械硬盘、磁带、光盘等。
同时,梧桐大数据平台依据现阶段具备的技术条件,制定适配各集群的存储周期管理方案,包括各集群的存储周期管理矩阵、数据清理机制及清理策略、数据容灾恢复机制、数据全生命周期流程管理等。此外,基于“通用+定制”原则,建立个性化存储需求的评审管控机制,不适配实际生产的特殊数据可进行存储周期的个性化定制,并对其成本和收益进行评估反馈,辅助管理者进行评审管控以及后续全生命周期管理方案的迭代优化。
在数据的全生命周期管理过程中,不同阶段的数据,对于其查询使用性能、存储周期的要求不同。那么,中国移动梧桐大数据平台如何对这些不同阶段的数据进行管理?
据江勇介绍,梧桐大数据平台对依法合规汇聚的数据,打造了横向分层+纵向分域的数据管理体系。
数据横向分层,旨在实现清晰掌控数据结构及其流向,满足不同场景的数据使用需求。数据分层架构的价值在于:一是各层级规范化、作用域明确,数据使用更易定位;二是复杂问题拆解为多个步骤逐层加工,各层处理特定问题,简化逻辑方便维护;三是分层数据血缘清晰,通过上下游信息,快速准确定位问题并梳理影响范围;四是数据逐层加工,共有逻辑沉淀至中间层,减少重复计算和数据冗余,降低企业的存储和计算成本;五是分层实现业务逻辑拆解解耦,屏蔽上层应用对源业务变化的感知,降低依赖,提高数据的健壮性及迭代效率。
数据纵向分域,是站在业务系统、分析对象、部门等角度对数据进行细分、归纳,抽象出主题,企业最终围绕主题域进行数据建设。
梧桐大数据平台的数据架构体系,自下而上是:基础数据层、轻度汇总层、融合视图层、业务应用层。
基础数据层存储清洗后的贴源数据,数据结构与源端系统基本保持一致,数据颗粒度最细,信息量大,但数据处理成本高,数据应用使用效率低。
汇总层存储分主题分维度的轻度聚合数据,以需求应用为建模驱动,做较细粒度的降维处理,数据存储量相较基础层有所降低,数据使用效率提升,可灵活支撑运营分析场景。
融合视图层存储重度聚合的统一业务视图数据,可跨域融合建设。
业务应用层存储需求和应用所需的查询展示数据,一般为报表指标级数据。
梧桐大数据平台的数据,在依法合规逐层加工萃取的过程中,资产价值度逐层递增,存储规模逐层递减,存储周期逐层扩展。
除了对各阶段数据设定不同的存储周期外,也会采取不同的管理手段。比如:逐层加强对数据的监控稽核,提升数据质量;加大对高价值萃取后模型的依法合规开放共享,提升数据复用度,助力数据资产价值转化;加强对底层数据的多维数据建设及治理,从源头提升整体数据体系的质量及复用度。
BOMS域数据深度融合 打造纵深横阔的数据资产体系
梧桐大数据平台持续依法合规汇聚BOMS四域数据,BOMS分别是运营商的业务域、网络域、管理域、增值域。
中国移动打造建设了丰富的BOMS垂类模型体系,因各域数据特性及服务场景的不同,模型的构建思路存在差异。
BMS三域模型,站在逐层加工萃取的角度,构建的模型主要分为2类:
1.垂类主题模型:即按照主题或业务划分,基于使用需求场景,逐层聚合汇总,形成特定主题或业务的数据模型。
2.横向融合模型:即融合同一主体在不同业务域的数据,依法打造全方位的主体画像模型。
O域通过解析沉淀丰富的维度标签体系,比如行业库、关键词库、APP库等,解析可扩增数据内容,拓宽服务场景,提升数据服务能力。数据自下而上逐层汇聚收敛,O域模型主要包括2类:
1.行业模型:即对主体进行分行业分场景的行为数据汇总。
2.大众模型:即不分行业的群体上网行为数据。
B域和O域模型的构建手段基本类似,其差异体现在:
B域是基础底座,其横向丰富的业务数据可支撑各类场景,而O域数据在探索的精准性和纵深粒度上更有优势。
O域相比B域,数据存储体量较大,在模型的构建上降维粒度更大。
除具备丰富的BOMS垂类模型体系,中国移动也在建设跨域融合资产体系,通过各域的深度融合,构建产品等多维成本分析和价值评估模型,逐步打造纵深横阔的高阶数据资产体系,在安全合规的前提下支撑服务各行业的数智化转型。
赋能企业数字化转型 5G数据实践应用成效显著
随着新一代信息技术与制造业的深度融合发展,全球工业数据应用已经进入纵深发展的新阶段,数据作为新型生产要素和重要战略资源,正在制造业数字化转型过程中发挥出更大的作用。在这一进程中,工业数据的依法流通共享受到广泛关注。
CHBN四轮全向发力,融合融通协同发展,因第五代移动通信技术将实现产业互联,5G数据呈爆发式增长和快节奏发展。中国移动重点推进5G数据在工业互联网、车联网、智慧物流、智慧港口、智慧采矿、智慧电力、智慧油气、智慧农业和智慧水利等领域的深度应用,加快重点行业的数字化转型进程。
在5G数据的全生命周期管理实践中,通过热度算法(数据访问频次),实现了5G数据的冷热温分级管理。热温数据,加大对外开放力度、加强质量监控、配备冗余备灾方案等手段,实现资产价值大化;冷数据,定期预警,开展系列数据治理举措,促进数据从冷到温热状态的良性转化,并对低价值数据开展清理工作,提质降本两手抓。
在5G数据持续汇聚、逐层萃取的过程中,持续推动高价值数据能力上智慧中台,依法合规面向全网开放共享,赋能行业创新,推进大数据和各产业的深度融合,加速数据要素价值转化。截至今年7月,5G开放数据已累计订购4398次,梧桐大数据为688家企业、高校等单位提供了数据服务,数据实践应用成效显著。
数据安全贯穿数据全生命周期管理的全流程
大数据是“新基建”的核心和灵魂,数据滥用、数据盗窃、数据越权使用、数据泄露等数据安全问题都会影响到发展“新基建”的效果。那么,数据安全管理该如何贯穿数据全生命周期管理过程?
梧桐大数据平台严格落实“四法一条例”要求,打造了坚实的基础安全能力,包括系统安全防护(对所有应用系统做相应的防火墙配置、漏洞扫描、渗透测试、代码审计等系统防护措施)、4A管控(所有生产域和测试域的设备均需要纳入4A管控)、账号口令及认证授权管理(重点防范弱口令、未授权访问等)、金库管控(敏感操作触发审批模式)、敏感数据防泄漏(DLP等设备)、日志管理与审核等。
梧桐大数据平台在安全合规的前提下拓展数据产品服务,坚持“三不原则”(数据无授权不共享、原始数据不出系统、系统不出移动),将安全管理策略、制度、流程与安全管理技术同步推进,建立从数据收集、数据存储、数据加工、数据开放共享、数据传输、数据应用、数据流通、数据到期清理的全生命周期的数据安全管理体系。
数据全生命周期管理的全流程,安全始终贯穿其中。梧桐大数据平台采取的安全管控手段如下:
数据收集阶段:敏感数据识别审核管控 + 加密网络通道收集。
数据存储阶段:保密协议签订+生产系统均4A接入+敏感数据加密存储+数据备份恢复机制。
数据开发及查询阶段:敏感数据加密存储+敏感数据查询金库触发+实名制账号水印标记+图形堡垒严控数据下载+操作日志留存审计。
数据传输阶段:严审网络策略+文件及数据加密传输+内部加密网络通道+传输日志留存审计。
数据共享阶段:敏感数据安全审核+4级敏感数据严控不开放。
梧桐大数据平台严格按照安全管理要求,对数据管理的各环节,接入日志并进行日志常规审计,确保各类行为“可溯”。
在数据全生命周期管理的过程中,梧桐大数据平台以数据可视化为手段,推动技术、业务和数据的融合,将已有的资产存储量、资产分布、资产萃取流向、无效数据清理成效、不同类数据的存储策略分布等动态,用大屏进行集中可视展现,为数据管理、风险防控、调度决策提供参考依据。
除此之外,在对外服务重点行业的过程中,中国移动打造了基于隐私计算技术的更安全的一站式对外生态平台,推进千行百业“用数赋智”。
隐私计算是面向隐私保护的计算系统和技术,涵盖数据的产生、存储、计算、应用、销毁等信息全流程。中国移动自主设计的1+X架构的隐私计算平台,解决了异构平台间数据互通的难题,大幅节省时间、人力及物理资源的成本,大量级数据交互的计算效率相比同类型产品高出50%以上,处于行业领先水平。隐私计算基于多方安全计算、联邦学习等技术,实现了“原始数据可用不可见”、“无敏感数据流通”、“数据不落地”,满足国家数据安全保护法律法规的监管要求,因其具备多种MPC算子、机器学习算法,满足风控、营销、运营等多类细分场景与应用方向的需求。
综上,梧桐大数据平台的数据全生命周期管理,严格遵循安全管理要求执行,有效保护信息安全的前提下,充分发挥数据资产价值。
肩负“链长”责任 着力提升数据治理效能
前不久,中国移动在“2022科技周暨移动信息产业链创新大会”主论坛上首次提出要做通信产业链的链长。在江勇看来,“做通信产业链的链长”是一种新的产业链治理机制,中国移动需发挥协同和示范作用,在强大自身的同时,带动产业链发展,牵引各企业“补短”、“锻长”,助力通信产业生态愈加完善。
当前,数据作为数字经济时代的关键生产要素,在大数据技术迭代、数据融合、行业拓展等多方面不断升级,数据要素的生产规模化、价值效能提升等需求激增。同时多方参与、环节增加所带来的长流程,以及行业应用对数据服务时效性要求的不断提高,给数据治理工作带来了挑战,例如多类业务数据管理复杂、数据不易精准定位等。
数据全生命周期管理是数据治理领域的核心模块之一,结合内外部环境变化的生态形式,为应对上述挑战,江勇表示将从以下方面提高数据治理效能:
1. 建立健全线上数据全生命周期自动化配置、数据自动清理、容灾备份机制及流程管理规范,推动大数据生产运维管理的线上化、自动化、智能化建设,不断加强企业级数据管理能力。
2. 建立数据热度分级管理标准,根据数据特性打造适配各域各类别的冷热温分级管理方案,包括配备不同存储介质、分级设定存储周期、不同副本存储、配置不同压缩格式等,实现冷热分级降本提效。
3. 提前统筹规划围绕东数西算的战略布局,优化数据中心建设布局,合理配置资源。通过建立东数西算的数据适配评估矩阵,对不同类别数据的实时性要求、查询性能、计算要求、业务使用场景等进行多维分析,提前规划适合西迁的数据,同时,依据算力类型,规划不同的东数西算场景。通过东数西算战略布局,全力推进新基建,助力数字经济绿色蓬勃发展。
4. 中国移动以DCMM《数据管理能力成熟度评估模型》(Data Management Capability Maturity Assessment Model)为标准为指导,持续构建全网大数据治理体系,以“构建管理制度,强化管理标准,优化管理流程,提升开放服务质量”为目标,推进全网数据治理体系和治理能力的提升,促进中国移动大数据价值发挥,完善数据质量保障机制,确保数据全链路安全,推动数据资产可见可用易用好用,加速数智化转型。日前,工业和信息化部公示了2022年大数据产业发展试点示范项目的项目名单,中国移动申报的“构建以智能元数据为引擎的数据治理平台”项目成功进入试点示范项目名单。同时,中国移动作为通信行业首家集团单位,已取得国家标准DCMM量化管理级4级认证。现阶段梧桐大数据平台已在全网数据统一资产目录管理、数据全生命周期管理、数据质量管理、数据标准管理、数据安全管理、全网元数据纳管等方面开展全方位的数据治理工作,并通过建章立制、工具适配打造、监管监控、实施执行与落地,不断迭代完善治理体系。
5. 组织全网大数据全生命周期管理规范编制,邀请各单位专家分享先进管理经验,共同探讨疑难杂症的解决方案,通过协作共建,汲取先进经验,打造标准化一体化的工具,推动各单位数据全生命周期管理能力拉齐,全网数据治理一盘棋,形成长效管理机制。
6. 长期积累和总结中国移动数据全生命周期管理的经验,提炼对外输出的治理能力,将其纳入有中国移动大数据特色的方法论和咨询产品目录,以大数据管理咨询服务的形式依法合规对外输出,赋能行业数智化转型。梧桐大数据平台现已在交通运输行业实现了数据管理赋能咨询服务,成功为企业打造适用企业特点的数据管理能力体系,赋能企业数智化发展。