随着海量数据存储和处理技术的发展,数据的价值将进一步凸显,银行自身要用好数据,基于客户账户数据进行客户画像,预测客户潜在需求,推出有竞争力的产品,根据客户消费数据,结合场景进行智能推荐,并进行风险预测和干预,提升盈利水平,作为金融数据服务提供方,要能在合规的前提下提供高质量的数据服务,打造场景化的金融生态体系。

1

云时代背景下,大数据(Big Data)吸引了越来越多的关注,数据中蕴藏着丰富的价值,通过提升数据管理和处理能力,应对数据急速增长的挑战,更多、更好地挖掘数据的内在关系并加以应用,成了金融业发展共同的目标。

随着业务发展和公司治理要求的不断提高,各类应用系统产生的数据量急速增加。据初步统计,目前行内各应用系统每年产生的非结构化数据已经超过1PB,结构化数据也以百TB计,加之已归档的历史数据,总数据量已经需要以PB为单位计算。

大数据的特点可归纳为“4V”。数据体量大,数据类型繁多,价值密度低,处理速度快。当前的软硬件环境,在爆炸式增长的业务和管理数据面前,凸显出了若干问题,包括数据存储成本高、横向扩展能力欠缺、大规模数据分析性能较差、历史数据难以有效利用等。数据的急剧增长和类型复杂迫切需要快速且有效的处理技术,而以Spark、HBase、Kafka等为代表的Hadoop生态系统则是大数据处理领域的利器。

当金融业遇到大数据技术,能带来什么点石成金的效果,可从几个典型的应用场景中见到。

一是海量金融数据的存储与管理,交易渠道的多样化带来明细类结构化数据的快速增长,“双录”等监管类要求使影像、图片、电子凭证等非结构化数据也呈井喷之势,传统的数据库、内容库等技术因扩展性不高而应对乏力。Hadoop的分布式架构特点为应用提供海量数据管理方面的核心能力,包括结构化数据或半结构化数据的存储、查询等,在一定程度上替代传统关系型数据库的功能;非结构化数据的存储和管理,在一定程度上替代传统文件系统的功能;结构化数据、半结构化数据或非结构化数据的统计、分析、挖掘能力,可基于此构建数据仓库或数据集市,形成互联网银行业务拓展的数据支撑,完成多格式文件随机存取管理、海量数据统计、分析等多种场景的应用实践。

二是客户画像与精准营销。金融业面对的客户群体数量众多,需要快速识别目标客户,推出有竞争力的金融产品并进行精准化营销,依托大数据技术的客户画像正是实现该目标的利器,其核心是对客户属性的标签化。

三是交易监控与实时风险识别。金融业竞争中,保证实时性也就保证了竞争的优势地位,要做到交易快速响应,在用户无感知的情况下,完成风险识别等操作,既确保交易的安全性,又不影响客户体验。

四是多维分析与商业智能。

五是基于内容的业务知识智能检索。通过对于用户输入的关键字等内容与海量检索对象进行相似度匹配,并依据相关性高低进行排序,返回用户最可能需要的内容,并基于用户反馈及时调整检索结果,保证检索的有效性。

六是历史交易明细实时查询。随着互联网金融的发展,交易的频度和复杂性也随之快速增长,交易数据源源不断产生,如何提供高质量的数据查询服务,满足客户全天候、场景化且实时性的数据访问需求,成了数据管理的核心命题。

业务交易数据产生于各自的交易系统(如核心系统),并通过交易系统提供当日数据的查询服务。采用Hadoop集群进行历史数据存储,历史交易数据通过数据交换平台获取,通过批量方式每日执行数据导入,数据导入过程支持数据校验和异常数据清洗,清洗处理后的交易数据采用实时数据库HBase作为存储容器,保存业务系统历史交易数据。对外提供了交易数据统一查询服务,覆盖交易系统中的当日交易数据和HBase中的历史交易数据,对终端用户提供统一的数据访问视图。

基于以上这些典型应用场景,依托大数据技术可实现风险实时管控、产品精准营销、支持商业智能决策分析、海量知识快速检索,更好地让数据服务业务发展。目前,农行正在逐步构建从采集、存储、分析、展现到应用的全流程数据服务体系,而在打造全行数据平台的过程中,还需要着重关注以下问题:

第一,价值驱动,架构先行。数据的存储和管理是手段,目标是获取数据的价值。一切对于数据的管理均应基于其价值,对于价值密度高的账户类、交易类数据,不仅要管理好,还要利用好,建立数据间的关联,挖掘潜在的价值。对于数据中台的建设,要坚持架构先行,确立整体数据架构,通过数据治理等手段,加强数据模型的统筹管理,提升数据质量,并结合服务接口管控,提升数据服务能力,逐步实施架构演进,打造数据领域的开放平台。

第二,平台共享,应用隔离。数据共享是价值大化的前提,共享不仅能减少数据的冗余存储,降低管理成本,还为不同数据间相互关联提供可能性,通过搭建统一管理平台实现数据底层共享,并在上层应用间根据权限要求进行细粒度隔离,满足客户、柜员、行内分析师、监管机构等多层次数据消费需求。对于基于生产数据的压测场景,可以通过在应用层进行数据脱敏等手段实施,既保证压测数据的真实有效,又能避免敏感信息泄露。

第三,合规安全,注重隐私。数据统一管理带来便利的同时,带来的管理风险也不容忽视。由于数据集中存储,对于机房、硬件资源和软件系统的可用性要求也随之提高,通过事前编制预案、事中加强监控、事后实施审计保证数据管理的合规安全。对于数据的违规访问操作,要做到快速预警,实时处置,有效保护客户的数据隐私,真正做到让客户放心。

第四,贴近场景,开放服务金融业的竞争已经在线上和线下同时展开,贴合场景提供服务成了不二之选,数据的加工处理要结合应用场景的需求,真正做到有的放矢,结合GIS信息和客户属性,进行场景化推荐,提升金融服务的精准性和前瞻性。金融数据服务要进行标准化和平台化,对外提供高质量的服务接口,并鼓励第三方基于接口进行系统研发与扩展,延伸服务领域,形成良性发展的服务机制。

总体来看,目前农行数据平台已经从TB级进入了PB级的建设阶段,接下去在可预见的几年内会进入EB级的庞大体量。随着海量数据存储和处理技术的发展,数据的价值将进一步凸显,银行自身要用好数据,基于客户账户数据进行客户画像,预测客户潜在需求,推出有竞争力的产品,防止客户流失,根据客户消费数据,结合场景进行智能推荐,分析客户信用状况,进行风险预测和干预,提升盈利水平,作为金融数据服务提供方,要能在合规的前提下提供高质量的数据服务,打造场景化的金融生态体系。

(作者系中国农业银行研发中心架构管理办公室梁生吉)

相关阅读:

“智慧医疗研究中心”成立 大数据与医疗进一步融合发展

流利说挂牌纽交所,人工智能+教育第一股上市

“人工智能+制造”的本质是“人机协同”

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>