中国IDC圈12月8日报道:“无意苦争春,一任群芳妒”,冬天将至,梅花也将开。在互联网金融行业即将迎来的一轮“寒冬”中,怎样的孤梅才可傲雪绽放?才可在群芳中独立枝头?
在写下这段话时,网易邮箱数据泄露事件成为了新闻排行榜中的最热门话题,关于用户信息安全、互联网企业基本操守的讨论再度沦为众矢之的。而伴随着这一年频频出现的P2P跑路现象,互联网金融行业的风险问题也被提上国家议程。之于互联网金融信用风险该如何防范或规避,怎样建立一套独立、有效、精准的征信系统,来自现下技术水平的答案或许是“大数据”。那么,大数据在互联网金融领域该如何更好地应用,具有哪些潜藏价值以及如何发现其价值,本刊为此专访了普惠金融信息服务(上海)有限公司(下称“普惠金融”)首席数据科学家李文哲博士,以期捕捉大数据风控背后所蕴含的一些创新之道。
大数据在国内的应用空间很大,
业务需求决定数据“出路”
曾在美国从事机器学习研究的李文哲回到国内后首先发现,中国并不具备较为完备的征信体系,互联网金融开展的难题多在于P2P公司无法完全凭借外部数据评估并授信交易方,并且缺乏建立精准数据库以勾勒用户的真实画像的出色技术或能力。但同时,中国的大批个人用户及中小企业用户却有着强烈的贷款或理财需求,据预测,中国互联网金融的总规模有望达到70万亿,其需求总量指数性的增长态势不像美国的线性增长已趋近于稳定。因此,李文哲相信,未来一段时间内,大数据在国内金融领域,尤其在互联网金融的应用空间将会比美国更为宽广。再加上“普惠金融”用技术改造整个互联网金融的坚定使命和追求,李文哲毅然选择加入这支队伍,共同谱写大数据风控领域的宏壮乐章。
据“普惠金融”此前发布的信审数据库统计显示,国内平均每100个拒贷案件中,就有16起涉及不同程度的蓄意造假或欺骗,其中既包括欺诈团伙、虚假个人又包括一批代包装公司。因而,面对层出不穷的欺诈行为且瞬息万变的金融环境,互联网金融公司的核心任务之一就在于运用大数据技术识别并排除这类金融风险,建立并健全风险定价体系,不断更新并完善反欺诈系统。
成立一年后,“普惠金融”于去年年中正式开始研发基于自身业务的大数据风控技术。李文哲认为,大数据价值的挖掘工作主要是从业务需求出发,但又要跳脱现有的业务层面看得更远。团队内部每周一次的 “空谈”和不定期地与金融方的沟通合作,既推动其大数据风控技术不断进步,又促进着“普惠金融”创新业务类型的日增月盛。这是一个良性循环的过程。在互联网金融行业同样致力于创新的北京共鸣时代科技有限公司(下称“共鸣科技”)CEO陆雨泉也持此观点。他认为,“数据应服务于业务,从业务的需求去开发数据,基于新的业务需求提炼旧有数据中的潜在作用和价值,数据才能与业务共生共荣。”
互联网金融的大数据有别于其他行业,“去噪音”是关键
为了提升企业的风控能力,打造更为安全的交易平台,互联网金融公司往往会通过多种渠道收集非常庞杂的各类数据信息。例如,“普惠金融”的数据来源主要分为四大方向:一是用户直接提供的相对传统的各类个人基本信息、金融信息或社交信息;二是用户授权的信息,这类信息有助于技术团队从个人的行为模式出发构建个人的状态或模型;三是从第三方征信机构引入的数据;四是通过垂直搜索获取并归纳的信息,即公共平台的公共数据。
但是,数据越多越杂并不意味着对风险控制、产品定价、技术创新越有利。李文哲认为,大数据在互联网金融领域最直观的一个特征就是“非结构化”。目前,“普惠金融”用于风控的大数据中,90%以上为非结构化数据。无论是从用户方捕捉到的文本、图片、音、视频还是其行为数据等,都需要投入大批技术人才进行深度分析,将其处理为结构化的数据,转换成能供决策中直接使用的决策变量或具体模型,也就是所谓的“去噪音、降噪化”。因此,互联网金融的大数据首先要满足时间维度和质量维度的需要(足够的存在时长并足够有效),其次才是规模维度上的诉求。数据越多,其中的噪音就可能越大,提炼降噪后加强各数据之间的连接度才是解决大数据问题的根本。正如“共鸣科技”CEO陆雨泉所说:“基础技术模块中除了数据获取,更重要的是数据处理效率、结构优化,而且在这些方面的要求会远高于其他行业的IT要求,因此对技术人员的理解能力和逻辑思维能力也提出更严格的考验。”
所以,数据的价值只有在对的时间对的用途被对的方式挖掘出来,才能在互联网金融的反欺诈、风控、贷后管理、精准营销等各个环节产生基础效应。在保证开发效率的前提下,为了使大数据分析工具尽可能地在每个应用层上释放其大潜能,使其分析结果与业务流程大程度契合,“普惠金融”团队提倡将国际先进的开源数据工具,与自主研发的大数据商业智能系统和风控系统有机结合,构成基于自身业务特点的高效分析系统。而“共鸣科技”则倾向于采用比较成熟的商业化数据分析工具,从对不同客户的数据分析出发以类推同一社群用户的共性,以此提炼、制定相应的解决措施或应用方案。例如,针对违约客户的分析得出不好的客户共性且不断地对模型进行优化,或可避免进一步的欺诈风险。
“艳压群芳”之力:保证进到自己盘子里的都是优质资产
正是因为大数据的使用,原先的人工审核流程转而由机器与第三方数据库进行对应、检验并给予用户实时授信,在审查效率、精准度和风险控制方面都实现了质的飞跃。李文哲认为,除了深度解放人力,提升效率之外,大数据在提升借贷两端的核心竞争力、促使金融平台更好地挖掘贷款方优质资产、识别音、视频客户信息真实程度等几个方面,也具有长足推动力。另一方面,随着互联网金融市场的“百花齐放”,P2P平台的获客成本两年翻三番,人均已上升至数百元。于是,将自身平台嵌入到更加多元化的场景之下提供客户服务,针对潜在用户群拟定跨界营销方案,成了互联网金融“性价比”较高的获客方式。而这一切的基础依然是大数据。
在风控方面,“普惠金融”团队也做了创新性的尝试, 例如将现有数据源进行系统性整合,从而构建庞大的关系图谱, 并基于该图谱实现关系的分析和推理。 该图谱可以直接应用于反欺诈、贷后催收和智能搜索等系统上。
毋庸置疑,构建越庞大且真实有效的数据库,对资金端或理财端的客户都是更安全的一层保障。那么与之相对应,当风控的引流入口缩小,对于优质资产的考评标准提升,用户借贷款的难度也会有所增加。不过,在“普惠金融”李文哲看来,真正的金融互联网化其长远目标就应是追求质量上的优势,而非规模或业务量上的盲目扩张。只有当自己盘子里的都是优质资产,并能更为谨慎且踏实地发展理财业务,给用户更为放心的体验时,才有机会在“百花齐放”的今天“艳压群芳”。即使是互联网金融市场的寒冬不期而至,“普惠金融”也能凭借这份真心抵御“冬雪”,甚至独立枝头。
当然,大数据的构建工作对企业的条件和素质也提出不小的考验。在现如今中国金融市场的背景下,企业引入大数据的大障碍就是缺乏顶尖人才。原因之一在于数据分析能力直接决定着最终数据的价值,行业门槛相对较高;之二在于中国高校在这方面的教育目前明显落后于欧美发达国家。而“普惠金融”在人才招募以及精英团队组建方面一直做着苦功。除了会去美国金融市场、中国顶尖高校挖掘专家及学者外,由李文哲带领的技术团队也一直保持着内部“找灵感”、外部“碰火花”的方式和做法。对他而言,大数据在互联网金融行业就如同一个开放的谜题,没有正确答案,只有无止境地创新。因为大家的目标并不为喊口号,而是想把大数据基础真正应用在“普惠金融”的每个业务环节上,使大数据技术成为企业的领先优势及大竞争力。