中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午大数据推动金融创新分论坛中国工商银行软件开发中心信息科技专家王晓平做了主题演讲。

 

500-333文章照片-大数据推动金融创新-王晓平

中国工商银行软件开发中心信息科技专家王晓平

以下是王晓平演讲实录:

王晓平:谢谢李司,听了建行同事的发言我比较受启发。接下来我介绍一下工商银行在大数据方面的建设情况。大数据的时代已经到来了,数据的增长像通讯技术一样,有个摩尔定律,增长非常快。在互联网时代,大家很多行为、很多交易都是通过网上进行,很多多媒体和音频技术也在发展,造成数据的存储量有非常大幅的增长。根据统计,数据量每两年会翻一番。

工行面临的大数据的挑战,首先是外部环境造成的全行的数据量的快速增长,包括我们现在工行每天的交易量,外部互联网金融,工行的三大互联网平台造成用户的交易数据和行为数据有大幅的增长。如何处理大幅数据量的增长对我们提出了挑战。工行从2000年开始建立数据仓库以来,拥有了庞大的历史数据资产,在新的环境下怎么能够快速地智能分析,对我们提出了更高的挑战。在数据源方面,现在随着互联网金融的发展,各行各业已经不单单是局限在本单位自己拥有的数据,更多的还是需要采纳外部的数据来配合我们进行相关的分析。工行已经引入了征信数据、税务数据等各方面的数据,怎么做到比较全的数据去描绘我行的客户特征,这是作为我们的一个新的课题。

工行整个的战略思路是通过我们行的两库一司的建设来完善大数据体系。两库是信息库和数据仓库,数据仓库在工行的建设和银行的建设中都是比较传统的,主要是应对我们之前的银行交易数据、账户数据,采用结构化的数据存储来进行相关的处理。前两年的时候工行启动了信息库的建设,随着互联网金融,随着新媒体的发展,大量的音频、网页、文本相关数据的发展,我们觉得需要将非结构的数据进行统一的管理和快速的检索,所以我们提出了建立信息库的概念。通过两库的建设,我们需要一支分析师队伍,能够对这些庞大的数据进行相关业务的加工处理和分析,所以我们在全行上下建立了分析师机制,从二级分行到总行都有专业的分析人员,会针对我行的结构化非结构化数据进行加工和分析。

工行大数据的发展历程可以分几个阶段,从TB级已经进入了PB级的建设阶段,接下去在可预见的几年内会进入EB级的庞大体量。最早工行是2000年初,那个时候大数据的领域更多的还是应用在一些报表的快速展现,所以那个时候我们是基于比较传统的Oracle和SaaS,做了T+1的动态报表,行领导和管理层能够在第二天上班前看到我们行昨天的经营数据,这是最早建立的。同时我们基于SaaS平台进行数据仓库的探索工作,但是当时只是基于特定的主题,基于SaaS做一些探索。2007年工行基于当时最先进的企业级的数据仓库的体系架构启动了工行的企业级数据体系的建设,做了全行统一的管理数据的大集中。2010年基于我们的数据仓库的数据支持,我们推出了工行的MOVA管理会计系统,做了全行绩效考核的管理系统。2013年随着外部形势的发展,大量数据爆发式的出现,我们引进了大数据领域在业界最流行的Hadoop技术,在Hadoop基础上搭建了信息库,发展是非常快的。2014年工行基于大数据,原来的大数据采用连机异部批量的方式,通过文件存储的方式,不管是数据仓库还是信息库,在时效上相对来说比较慢,所以自主研发了一个流数据平台,能够提供实时或者准实时的流数据处理。2015年下半年和今年正在推动分布式数据库的落地工作,会和企业级数据仓库做一个互补。这是大数据的主要技术演进。

从比较宏观的角度来说,大数据体系可以分成几层,最底下一层是工行相关的业务系统,包括电子银行、相关的平台和产品、传统核心系统相关的数据、外部的数据像工商注册和征信的数据,为后面的业务分析提供了强大的数据支撑。在大数据平台上,我们可以把它抽象成四层,第一层是数据采集,统一针对外部和内部的数据进行相关的数据收集,包括日志信息、行为信息和业务信息。再上面一层是我们不单单提供了传统数据仓库的批量计算的能力,也通过一些流数据的技术提供了实时的计算能力。完成计算之后,根据不同的业务场景,我们会做一个在线的存储,有些是当时时间的切片,还有是根据时间的要求存储几天到十几年的周期。再上面一层,抽象了大数据相关的服务,包括用户可以自定义的查询功能。通过这些信息的服务,把这些服务抽象到我们的业务系统中,通过我们的管理会计系统,通过分析师平台、风险系统、营销系统,为我们在数据的运营、风险控制和营销方面都提供相关的支持,这就是主要的大数据分层体系。

从大数据的起源开始,数据仓库到目前的大数据新形势下,数据仓库已经在做非常大的升级换代和变化。2014年工行认识到从高成本封闭的专业系统,Teradata,另外是向高性价比通用设备和开放技术的专项。转型有两个原因,第一是数据量太大了,原来只需要处理TB级已经转向需要处理PB级甚至以后EB级的数据量。如果是这么大的数据量,运用传统的设备没有办法进行相关的处理。性价比,我们做过测量,通过开放式的弹性可扩展的普通PC服务器的方式,比传统设备在成本上介绍十几分之一或者几十分之一。我们在新平台上一方面引进了Hadoop平台基于普通的PC服务器进行搭建,短短一两年的时间已经扩展到150个节点,存储空间已经超过1PB,超过建设了十几年二十年的Teradata的数据容量。另外我们在研究也会尽快落地的分布数据库,会基于开源的底层架构,基于普通的PC服务器完成数据仓库体系的扩充。后续在大数据的处理加工方面会基于分布数据库进行处理。从目前的分析角度来看,Teradata会保留,着重在高端的分析师分析挖掘的探索性的工作方面。后续工行的大数据体系会采用多种技术路线、多种技术平台共存的方式。

非结构化数据信息库的建设情况,建行已经介绍了,工行也有点像。信息库的建设原则,因为非结构化的数据的量是非常大的,所以我们的原则是信息库建设没有把非结构化建设进行物理存储的集中,我们只是通过统一的搜索引擎让用户能够快速地搜索找到他需要的非结构化的信息。如果需要进行进一步分析挖掘的非结构数据我们才会进行统一的存储、加工和分析,比如用户的行为日志、用户的点击,后续需要进一步分析的我们会进行集中的存储、挖掘、分析,用户有些视频或者文档,我们认为它还是存在各个相关业务系统中,我们需要有一个快速的把它搜索到使用到的方式。

经过这两年的建设,我们的信息库已经初见成效。一方面我们做了全行级的搜索中心,能够把全行的各种文档快速地进行搜索,提供业务的支持。另外针对我们的日志特别是互联网金融的相关日志进行了相关分析,做了网银魔方、容易购的魔方,对用户的使用习惯和喜好做了探索的分析。外部公布的网站,包括百度和新浪的网站我们做了非结构化的数据分析,我们可以实时了解到目前互联网上对工行相关的舆情和突发事件,哪些事件对工行产生了影响,哪些事件对工行的声誉造成了影响,都能够快速的进行信息定位和搜索。

我们通过信息库的数据支持,通过分析用户的基本特征,这个基本特征有很多是通过结构化数据,刚才说的数据仓库的存储和信息库的联动分析达成这个效果。基本特征是从数据仓库中提取的结构化的数据,通过日志的分析,通过浏览记录和搜索记录,通过模型运算,用户在银行的交易行为和上网的浏览行为去猜测用户喜欢哪些产品,他可能会购买哪些产品。通过容易购和各个相关产品渠道推荐给用户,这样能够比较精准地定位我们的目标用户群。可以看到我们做了这些尝试以后,页面流量和没有做猜你喜欢的服务之前效果提高了3倍。工行在大数据应用方面主要侧重在风险方面。大数据如果用不好的话就是一堆垃圾,数据当中有价值的数据是非常少的。从工行的角度来说,一个营销行为的成功率很难说是数据给的支撑还是外部环境有的特殊变化,但是在风险方面它有刚性的要求,所以大数据在风险领域的应用可以最快的落地而且最能够见实效。

工行通过大数据在事前、事中、事后三个环节的运用进行风险的柔性控制。简单地举一个例子,事前,比如银行卡的授信过程中,或者信贷要进行发放做净值调查中,数据能给它一个支撑。事中,比如银行卡最近比较多地发生盗刷行为,我们可以在事中通过大数据的方式发现银行卡的盗刷行为。事后,可以根据事后的交易或者发生的事件进行相关的分析,分析我们后续在业务的拓展或者风险控制方面有哪些需要进一步改进或者补救的工作。

这里举了几个简单的案例。非常好的大数据的应用场景,交易反欺诈,需要利用大数据流数据的技术,用户在做交易的过程中采用主机旁路技术,交易没有完成之前通过大数据在内存中进行一个判断,可以有两种方式,可以简单地通过专家规则的判断比较复杂地采用一些比较先进的类似于神经网络的技术进行判断,去发现是不是欺诈交易。判别出欺诈交易有两种方式,第一会当场把这个交易拦截,跟用户确认这个交易是不是用户本来发生的。第二会做一些柔性的控制,比如在网银上我们认为这可能不是本人交易的行为,我们会提示他进一步输入需要核实的信息,比如需要加入一个卡密信息的输入,进行柔性的控制,这样能比较好地控制在欺诈事件的发生。

第二,大数据怎么运用模型,通过比较好的用户特征的总结和模型做一个监控。通过标签信息,比如我们定义了两个标签,一个是用户开户的地区比较广泛,另一个他持有比较多的借记卡,我们可以认为他涉嫌倒卖银行卡的嫌疑,我们通过大数据的计算可以把这些人员抓出来,可以进行后续的业务处理和防空。这也是大数据应用的比较好的方面。

第三,现在各个银行业碰到的比较大的困境,信贷资产的质量问题。工行持续在推动运用大数据驱防控信贷风险,工行成立了信贷防控中心,运用大数据技术在进行相关的防控。大数据在客户营销方面可以发挥比较大的作用,营销的大数据支持可以在客户的三个周期都可以发生作用,在拓户的时候我们可以做潜在的客户精准挖掘,这样精准地定位我们可以拓展的客户。在稳定的过程中可以精准地给用户推荐他喜欢的产品。客户流失的阶段做一些预测,在客户流失前做定向的挽留工作。基于大数据做了对工行的商友客户进行五级分类,针对比较好的商友客户进行了特定的产品推荐和针对性的服务。分行采用大数据的模型针对性地做了挖掘,通过模型进行分析挖掘的话比一般性的营销效率提升到2到3倍。

大数据分析除了传统的技术还有比较新的技术,路径分析、文本分析、图分析、大数据可视化分析,和前几年的分析方法有比较大的差异。之前李克强总理到工行来访问的时候,我们利用大数据可视化的分析方式,非常通俗易懂的方式让李克强总理了解全行一直到具体到某个企业的信贷情况,不单单让管理层,而且让信贷管理人员能够监控全行甚至是企业的信贷情况。采用了大数据专门的分析方法做了工行的交易行为和宏观经济的分析,能够比较准确地从工行的角度预测国家宏观经济的走势。

展望。从工行角度来说,有点像大数据的四个V,更全,新的形势下不单单只是局限于银行的数据,需要采纳更多的外部数据能够补充我们数据的基础。大数据必须要快,像反欺诈风控,时间瞬间就过去了,所以必须在快上下更大的工夫。更专,大数据是比较泛的领域,我们要抓住我们的热点和痛点把大数据真正发挥到作用,抓住我们的痛点解决我们实际的问题。大数据的范围非常大,有价值的信息非常少,所以我们要抓住大数据的业务价值,真正体现大数据在银行当中的创新能力。

我的演讲就到这里,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>