从精准营销、智能客服、差异化定价到智能风控、智能理赔、智能催收,金融大数据、云计算、人工智能和区块链技术正在从数据层、智能层、产品层多维度地向金融领域的细分场景和业务链条各环节渗透,金融机构的运行效率大大提高,金融服务日益呈现出场景化、平台化、智能化的发展趋势。
金融行业面临全新的挑战和机遇,如何把握金融科技发展趋势,将新科技和金融业务有机融合,提升综合实力和科技创新能力,成为目前金融机构面临的重要课题。
11月30日, 亿欧金融主办的“2018亿欧创新者年会——金融科技创新者论坛 ”,邀请到了银行、消费金融公司、供应链金融服务公司、产业资本、智能风控、金融大数据等创新型金融科技公司共同探讨监管科技、开放银行、场景金融、大数据风控、知识图谱等行业热点话题。
受邀参加此次峰会的嘉宾有:民生银行信息科技部总架构师李晓东,盛景嘉成产业互联网基金主管合伙人赵今巍,辉腾科技金融执行总裁叶阳,马上消费金融CTO蒋宁,领沨资本创始合伙人马宁,维金创始人兼CEO俞强华,百融金服副总裁王正明 ,中译语通科技股份有限公司CEO于洋,氪信合伙人、副总裁高强,华创资本副总裁余振波,亿欧公司副总裁兼智库研究院院长由天宇,亿欧公司合伙人兼金融频道主编刘欢,亿欧智库助理研究经理薄纯敏。
本次金融科技圆桌论坛环节主题为:2019年金融大数据应用的趋势、机遇和挑战。
参与本次圆桌论坛的嘉宾有:中译语通科技股份有限公司CEO于洋;氪信合伙人、副总裁高强;华创资本副总裁余振波出席并参与讨论。亿欧合伙人、金融频道主编刘欢担任此次圆桌论坛主持人。
以下是圆桌论坛环节对话速记:
亿欧合伙人、金融频道主编刘欢
刘欢(主持人):接下来的时间将由我为大家主持圆桌论坛环节。参与讨论前,我们先回顾下今天主题的背景,下午9位演讲嘉宾从宏观背景,从投资环境,也有从具体业务层面等多个维度跟我们谈了金融科技在产业的具体应用。如果追根究底来看的话,我们会发现所有的基础,最终都落实在金融大数据之上。金融大数据是整个金融产业的基础设施,形象来讲金融大数据就好比是构建整个“金融产业大厦”的“砖瓦”。
从过往经验判断,大多数人会觉得金融数据是以金融系统内数据为主。而金融系统的数据完整性、权威性甚至包括准确性都做的非常好。但是在另外一个维度,随着场景的逐渐多元化,非金融数据对于金融产业的影响越来越大。
刘欢(主持人):讨论问题前,首先请各位嘉宾跟观众打个招呼并一句话简单介绍一下自己目前所做的具体的工作。
中译语通科技股份有限公司CEO于洋
于洋:大家下午好,我是中译语通的于洋。中译语通2013年开始运营,主要专注的方向在大数据、人工智能和语言科技。金融完全是一个新拓的领域,但是在新的领域里面,我们有自己独到的理解。
高强:大家下午好,我是氪信科技高强。氪信是一家2015年创立的金融科技公司,我们始终定位在通过AI和大数据的技术帮助金融机构在大数据的时代去更好地通过数据驱动的方法,去服务好各种各样的客户。氪信希望通过AI的技术,能够更好地深挖数据,让银行这一类的机构更好地用好数据,更好的敏捷地服务客户,我们提供了一整套的服务方案,近期我们还发布了最新的AI决策引擎“非或然”。谢谢大家!
余振波:大家下午好!华创资本是一家专注于早期高成长企业投资的VC,金融科技是我们非常重要的一个方向,我们在金融科技总共投了30多家企业,这其中包括一些在市场上比较知名的企业。
刘欢(主持人):感谢三位嘉宾的介绍。
2018年,我们能够明显的看到,金融产业的变化更加开放,金融产业从垄断市场开始逐渐破冰,未来肯定会以更市场化的运作方式为主导。金融开放一定会成为金融产业主旋律。过往金融大数据大家提了很多,但就经验来看, 金融大数据的外沿会更加广泛,它包括了金融数据和非金融数据,有请三位嘉宾谈谈自己对于非金融数据的一些理解和具体的思考。
于洋: 讲到非金融数据,在很多年以前大家更愿意把它翻译成可替代数据(Alternative Data)。Alternative Data在金融产业里面也有叫另类数据/场景数据等等,但现在更多比较规范,将其定义为“另类数据”。
另类数据相对于我们使用的基本面数据,比如税务信息,比如从太空当中大家拍摄到的停车位的一些图象数据,可能在传统数据里面,以上没有被利用到金融领域里面去。
某种意义上来看,我们一般讲大数据的话叫结构化数据、科学化数据,而采集到的另类数据恰恰就是90%的非结构化数据。在所有的大数据里,10%是结构化数据,比如银行的结构化数据。结构化数据从体量上来讲相对小一些。 非结构化数据是不规则的,比如图像、语音等等这些形式。
但是在今天这些另类数据可以爆发出相当大的能力,比如我们在第一次预测当中,8月份上海股指涨跌做了第一期算法,20天的预测里面,基本上我们的预测都是准确的。上海综合股指每一天涨跌的具体的数字,误差可以控制在1%以内。我们所用的算法,除了基本面的数据,更更要的是情绪化数据的纳入。市场情绪是非常重要的,而这些在我们之前从来没有被纳入到量化、对冲里面去,它可以爆发非常大的力量。
比如说中国从伊朗购买原油,用人民币结算。但是对于原油价格的预测里面,我们只是用供求两端的数据去做一些预测。但是这个交易本身,APEC会议后市场反应是什么样的?中国的市场的反应是什么样?美国、俄罗斯的反应又是什么样的?而这些数据以前是阿拉伯文、英文的等等,对于我们来说,首先语言就是一个门槛。语言对于计算来说是0和1之间的关系,对于自然语言处理也是一样的,不会转换,一切都是0。
在市场上,机构的反应、民众的分析、社交的舆论这些主体的反馈并不尽相同。同样大家的情感呈现,有正面的、极正面的、负面的、极负面的,这些可能对市场产生不一样的影响。
这些另类数据可以应用到金融层面,无论是系统性的风险,还是大的趋势风险判断,都可以纳入另类数据。另一方面,另类数据对于股指、期货、大宗商品交易等等这些指数的预测,也会带来巨大的影响。另类数据在美国讨论也不过两年的时间,相信从理论到深度应用还有很多路需要探索。这就是我对另类数据的一些理解。谢谢。
氪信合伙人、副总裁高强
高强:我想和大家分享一下我们在实践当中的一些感受。氪信一直强调对数据的整合挖掘效果。氪信一直说是AI+大数据,为什么这么说呢?我们放到再远一点讲,每一次技术的革新,它的作用到底是什么?AI的这一次技术革命它的作用是什么?那么我们想一个新的技术,它实际上是在拓展我们人类对我们已有的这些资源的开发的能力。那么这一次我们讲AI和大数据,我们觉得AI这个工具它实际也是在拓展我们对我们业务资源的挖掘能力,这个资源就是数据。
那么我们在实际给金融机构做数据风控的时候,确实很深刻地感受到了新的技术突破以后,会使我们对已有资源利用能力扩展,尤其是像我们过去几年,大家都感受到一个是支付的变化,一个是消费金融的变化。在几年前,我们可能经常会用现金,今天我们很少会用。现在我们会在现场去完成,这是离不开AI的技术对我们新兴的各种各样的非结构化的数据还有传统数据之外的这些数据的解读。 如果没有这样一些新的技术的突破的话,按照传统的银行的这些做风控、评分卡的方式,很多我们借贷的场景或者借贷的需求是没有办法通过的,这是第一点。
第二点,我们刚才讲到了现在大多数的数据是非结构化的,比如说文本、比如说像一些图像数据、语音数据。刚才前面专家讲到了我们在证券领域有一些“情绪数据”。举例来看,就是我们在医院看病的时候,传统的时候我们可能看一下我们的化验报告,一些标准的指标。慢慢地,我们的技术发展了以后,我们可以看CT片,越来越精细的扫描的片子。那么现在其实我们在我们的一些实际的工作中,也开始用深度学习技术,把一些数据转化成图像的格式来分析图片。
这些新能力的出现,其实是得益于今天AI技术的发展。在整个新的数据时代,AI和数据的结合,当然还有包括云计算算法的结合,会产生非常巨大的能量。我感觉现在只是一个开始。
华创资本副总裁余振波
余振波:先回答主持人的问题。 华创对所谓金融大数据、非金融大数据的看法:总体来讲华创其实并没有严格地划一条线明确的区分什么是金融大数据、什么是非金融大数据。从华创的视角出发,金融大数据和非金融大数据其实并没有非常明确的分界线。
从投资的角度去看非金融数据,需要关注的有以下几点:
第一点,数据来源,数据的产品是不是可以规模化、标准化。这是取决于这个数据上面能长成一个标准化的产品,能够长出一些有意思公司的先决的条件。
第二点,这个数据是不是真的有很强的解释力和好的商业应用。比如说去预测估值的波动,比如二十天放大到两百天,在市场的异常情况下是不是很准。这其实是比较难判断的。
第三点,是不是有客户真正买单。这对于创业企业来讲是最重要的一条,是不是你的idea,你的观点真的别人会认可。我们自己其实投了一家所谓的做面向二级市场投资的创业公司,叫百观科技。
百观科技其实就是把一些传统的二级市场的标的,做二级市场的基本面分析的时候用不上的数据或者难以获取的数据,用互联网、大数据的办法采集过来,用他们自己的模型,去做出一个产品,这个产品去卖给二级市场的投资人。其实你们可以看到从数据的产生到中间的解释到最后有没有人买单这样形成了一个完整的闭环,所以我们觉得如果大家想创业的话,可以按照我刚刚所说的这三个方面去分析。
刘欢(主持人): 刚才几位嘉宾都聊到了整合数据、采集数据,那么在整合、采集的过程当中,我们会发现数据有多样性的:有社交数据、电商数据、交易数据、物流轨迹数据等等,在这些多种多样的数据里面,如果按照商业价值来衡量的话,各位嘉宾觉得哪一类数据它的商业价值含金量或可开发、可挖掘的价值更高一些呢?
于洋:一方面要看数据的规模,但规模不是单纯越大越好了。
另一方面,还得看产品的属性和应用。客户的需求是什么,那么数据种类也就相应的要适配什么。
作为一个量化指标,它应该不是单一一类。今天讲到了所谓的另类数据,其实它就是要寻求不同类型之间的数据的关系。
今天中译语通已经为美国海外众多知名企业提供大数据服务。今天讲的数据已经不是负面新闻是怎么样的,一定是负面新闻的规模有多大,影响有多大,以及它和其他因素的关联关系,不再是以一个单一主体去评价数据价值。
高强:主持人的问题其实对于数据来讲,它的价值跟它的应用场景是紧密相关,所以我们如果用投资领域来讲的话,其实不同的策略用到的数据不一样,那肯定体现的价值不一样。比如说做一些期货的投资,可能对它来说跟期货市场上的一些实际的市场的变化的情况或者是跟一些基本面相关。
氪信做的比较多的是银行风控的数据,对于信贷风控来讲,传统大家用的最多的其实是信贷类的数据,也就是说征信机构长期以来一直在积累的这些数据。这几年数据拓展了一些维度,用到了其他的行为数据,比如说通信的行为,比如电商消费的行为,包括日常的一些手机APP上的行为,现在大家都有在用。换句话说,不同的这些数据形成的变量对于我们最终在评估资产或者评估个人的时候,它起到的预测周期的能力是不一样的,比如说有的变量能够看到更长期的变化,产生更长期的变化的驱动力。有些则是短期的变化。
为什么氪信一直讲数据要整合,我们帮银行做的是各种各样的数据做整合。对于我们不同的金融产品,不同的借贷期限,比如说短期的,一个月或者多长的。长期一点的用到的数据不一样,关注点也不一样。所以这个其实跟我们的应用场景是有很大的关系的。
余振波:从投资角度判断数据价值有一些大的方向和判断标准:
第一个,我们觉得最有价值的有效数据,比如说上市公司财报数据当然是非常有效的数据。
第二个,它和现有的证明有效的数据有非常强的因果关系,比如一个成熟的电商网站的UV数,跟它的GMA有非常强的因子分析,这个我们认为也会是一个比较重要的数据。
第三个,可能到不了一个很强的关系,但是有一定的相关性,需要相关性的解释不像因果性的逻辑,很多时候需要你有创造力,或者自己新的想法,创业的机会也可能在这层数据上面。
从商业价值的角度来讲,这个跟你最后做的产品是什么样子比较有关系,如果你的产品比较标准化,或者解释性很强,付费的客户又是比较有钱的客户,比如对冲基金、银行的,这个东西本身价值可能会大一点。
刘欢(主持人) :我追问一下余总,刚才大家谈到从客户的角度,也有从场景运用的角度,也有从产品的角度去聊大数据风控,那从风控角度来看,大数据应用于生产流通当中,这个过程会面临的新的风险和新的挑战都有哪些呢?
余振波:用在熟悉的刚才说的风控和投资面对的挑战,最重要的挑战有两个:
第一个你得找到数据的用途,或者是解释的能力到底是什么,这个其实是一个核心的挑战。数据的采集、整理、清洗、产品化,其并不是一个那么需要创造力的事情,最重要的是需要找到这个数据本身的用途,或者说他本身的解释能力在哪里?
第二个在商业化上的挑战。其实是怎么样把这个事情讲给你的客户听,从创业的角度来讲,这个是一个最重要的事情,就是你得让客户买单。
高强:对于另类数据来说,它的一个特别鲜明特点就是维度很高。现在大家讲不管用机器学习模型,还是其他的学习模型维度越来越高,维度高的特点就是这个模型一个是解释性差一点,另外就是它还有一个特点拟合比较好,很多时候大家看看这个拟合非常棒,这个时候大家容易产生幻觉,就像去年不管是现金贷,还是消费金融,当时很多大家觉得每天放款达到了多少万亿,然后我这个模型跑出来以后已经经过了大量样本的检测,而且效果非常好,这个时候大家觉得这个模型非常好,感觉到我找到了阿尔法。
其实我们做模型都知道,任何的模型其实都是一个归纳的,尤其对于开放系统的来讲,开放系统任何时候拿到都是一个样本,这个模型有它的成立背景逻辑,这个背景逻辑发生变化的时候这个就不成立了,这个时候出现非常大的、毁灭性的风险,那这个时候这个逻辑就不成立了。
在监管出来之前,已经有一些迹象,大家在做风控的时候会看到,一些指标在发生变化和迁移, 大家的容忍性越来越大,这个时候并不是说真正的是找到了阿尔法,整体行业在扩展的时候,我们本身赚的是贝塔的钱。 我们氪信一直和金融机构携手深入场景做人机结合,人擅长的是做一些前瞻性、宏观、中观的判断,机器特别擅长从微观的角度,从大量海量的数据抓细分的规律,这两个结合起来才能用的很好。
于洋: 在未来大的挑战是数据合规。 我们讲到社交数据、手机数据、用户行为数据,这些数据是否合规?当你的企业需要扩大规模,需要去IPO的时候,数据的合规性是非常重要的,这是一把利剑。当然这需要一个过程,我认为数据合规就是大的挑战。
第二个问题,是企业的变现能力和购买能力。今天我们从用户数据着手,对周边的数据进行加工,这些在金融领域比较外围的数据,变现能力和用户的购买能力到底有多大,会达到多大的规模,这个是一个挑战。
我觉得数据的安全,以及场景里面的变现能力,是数据应用过程和商业变现所面临的挑战。
刘欢(主持人) :刚才于总提到数据的合规性,确实对于整个产业来看,大家对于数据的合规性都是非常重视的,正是因为合规性,也让大数据产业不可避免的产生了数据孤岛,产生数据融合难题,这些问题到今天来讲一直也都悬而未决。关于大数据的融合,或者如何消除数据孤岛的缝隙,从技术的角度,或者从商业模式的角度思考,我们能做哪些事情呢?
于洋:首先在技术上,我们讲的所有金融监管科技,以及另类数据都会对行业起到很大的作用,当然并不是已经证明好的东西就一定要会颠覆掉整个行业。
举例来看,彭博已经运转了几十年,所有交易员都在用老系统,大家不会为一个新生的东西把整个行业中在使用的系统更换下来,一定有一个渐变的过程。在数据合规的前提下,才可真正为金融监管,金融量化交易,企业用户画像等作出贡献。
高强: 数据整合其实是一个挺难的事情。 尤其去年百行征信出来之后,基本上定调了信贷数据要集中有一个国家主导的平台去做这个事情,从商业角度来讲,我们觉得数据整合可能的点在场景,对于现在的互联网巨头来说他们本身就是场景,它的数据内部打通整合已经体现出了非常强大的威力,像阿里这些已经给大家展现出来了。除此之外,在核心的企业和平台里面,大型企业,因为金融本身就是信息数据驱动的行业,这些大的平台也是数据整合,我个人不认为存在一些独立于政府合规主导的平台,还有大的场景之外的数据整合机会,我觉得更多的机会在场景里面,或者大平台。
刘欢(主持人): 目前来看,很多拥有数据和场景的巨头开始自我生态循环,或者是以核心企业为主自己的产业链上下游去整合,这种变化只是说扩大了孤岛的半径,或者说阶段性的扩大了数据应用的范围,事实上更大的跨领域,跨行业,跨区域、跨国界的整合还很难?
高强:确实是,不过现在整个行业发展已经有改观了。从2C这端这些平台发展起来之后,首先我是从信息的获得角度讲,我们已经变得很容易了,有了这些平台以后,我想拿到一个产品的信息非常方便。
经过这几年发展,信用相关的信息比以前有了很大的改进,经过这两个阶段的发展,现在整体的交易摩擦已经降了很多,也就是说数据的流动已经比以前好了很多,未来数据的整合和数据在整个经济体里面怎么流动,这个涉及到相关的国家政策,包括产业的政策,还有数据隐私保护,像现在欧洲很严格,我相信这也是趋势,毕竟这些数据如果没有很好的保护,我们从国内已经发生的案例来看危害是非常大的。
刘欢(主持人): 我们刚才提到了从目前来看,数据孤岛依然存在,刚才于总和高总前面已经聊到了这种趋势在渐进趋于利好方面发展,我们在想有什么新的技术和好的商业模式能够 加速,或者说能够推动这个事情更好的往前走?
余振波:我是一个投资人,我从来不讲自己是最聪明的人,我有一个信仰,商业的力量可能推动事情向好的方向发展。
举个不太恰当的例子,这两天“基因编辑婴儿”事件引起舆论哗然。在伦理上我坚决反对这么做,但是在商业背后有利益在驱动这个事情,所以我理解数据产业这个事情也一样会是这样,只要你有足够多的商业需求,还有足够多的商业利益,我觉得这个事聪明人自己会找到路线。 至于说监管也好,数据孤岛也好,这个都是创业者需要去挑战的困难,我不是说让大家去挑战监管,而是说你需要去跟这些限制条件做结合,要不然创业的意义在什么地方?
如果从大的趋势去讲,数据的生成,数据本身的产业化,所有的大数据、人工智能技术的进步来讲肯定给人类带来更多的福祉,这个我相信一定是这样子,我也希望知道下一个好的商业模式是什么,我也希望知道下一个非常优秀的创业者在哪里。
刘欢(主持人):过程很艰难,但是结果很美好。
于洋:分享一点中译语通的经验。我们在2015年提出了跨语言大数据的概念,跨语言一定不代表着把这个东西翻译成中文,这些数据可能之前是英文的、中文的、日文的、法文的,对于我们来说, 首先语言是一个问题,传导不过去,就会失去很多的金融机会。
第二点,当解决语言问题之后,数据影响和波及的规模有多大,情绪的正面、负面,市场和投资人的行为怎么样衡量,这个是很重要的。
中译语通提出了13种自然语言处理的算法,我们覆盖了大概超过12种语言,也就是说,当我们在分析俄罗斯、德国这些国家自然语言的算法的时候,都是要用它的本语言去计算,识别出它的语义和观点。
解决不同数据、不同语言之间的信息对称,从这个层面上,我觉得还是一个特别巨大的空间。
刘欢(主持人): 感谢于总。因为时间关系,最后一个问题,大家一句话总结一下,不管是自己行业内的也好,或者自己所处的行业,各位嘉宾觉得金融产业在2019年最明显的机会是什么?
于洋: 另类数据就是新石油。
高强:这个还是挺有难度的, 2019年像银行消费金融这类机构,用一句话概括的话 :大家会以一种更敏捷的姿态,以数据驱动的方式更好地以客户为中心做好金融服务。
余振波:从投资的角度来讲,我觉得数据这个产业现在处在一个既不算元年,但也不算格局已定,它所处的状态混沌初开。所以还是希望有更多的创业者能够用更创新的商业模式来打动我。
相关阅读: