中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日下午的大数据技术与产品创新分论坛中晶赞科技合伙人荣云剑分享了受众数据管理与应用创新。
晶赞科技合伙人荣云剑
以下是荣云剑的演讲实录:
荣云剑:我今天主要是讲数据管理应用的一些平台、受众数据管理应用在应用方面的一些案例。
首先讲一下我们公司,我们公司是2011年成立,我离开Google之后创立了这家公司,主要是做一些跟大数据相关的工作。我们主要的产品是晶赞天机,是做受众数据管理的。我首先会讲一下数据发现,讲一下数据管理平台,还有一些数据应用的案例。我们认为数据没有放到应用里面是没有什么价值的,当然数据用的场景很多,我今天会讲比较简单的应用场景,或者我们通常都在关心的应用场景,就是针对个人用户在市场营销方面的一些应用。
讲数据发现之前我先讲两个概念。很多人都在讲大数据或者大数据的交易,其实在我们看来,大数据的发展主要是两个方向,首先是做高频次的数据交易或者是高频次的数据研究,好比公共事业单位做用户的出行和交通的研究,百度地图,你今天没有出门,明天设定一个路线,他告诉你大概会花多长时间,他就是根据历史的数据,利用非常高频次发生的数据告诉你这个地方会不会堵车,花多少时间。还有一种是做高维度的数据交易,好比我们现在做的,针对用户的数据管理,我认为就是一个高维度的数据交易,一个人会做很多的事情,可能我们现场有很多人,他是一个爸爸,他有孩子,平时喜欢下棋,喜欢看球,有两辆车,有多少存款等等。但是实际应用的时候不需要那么多的维度,有一个降维的过程,这是高维度的数据管理,这个时候大数据就是帮你起到一个降维或者是抽取你需要的维度放到应用里面的一个工作。
先讲数据发现,这是我们用利用看到的数据做的一个品牌手机的画像,这个手机的画像80%都是男性,80%都没有结婚,80%的人无房无车,而且还有其中一半是和父母住在一起的,80%的人都是小于30岁的,我不知道大家知不知道这是什么品牌的手机,这个就是小米手机的用户。这个就是我们在讲的一个高维度的数据情况,我其实不是关注高频的数据,一个车厂里面造车,造了一万个零件,哪个零件有瑕疵改进工艺,这个不是的,这是基于用户做的高思维度的交易。你抽取这些交易,你知道做一个App,你要推给小米的用户,小米的平台不一定愿意帮你推广这些。你就看这些人群,男性、没有结婚、无房无车,你去看他们App的排名,微信、QQ、QQ空间、淘宝,几乎没有用京东的,所以这个就是一个比较典型的用数据去观察用户的情况。我们这是看了2万多个小米的用户得出来的结论。
这是一个打车的App应用,可以看到左边是滴滴打车,右边是Uber。我不知道你们看到这个得出来的第一个结论是什么,我第一个反应就是,乘Uber的人都是自己付钱的,滴滴打车的人都是公司报销的。为什么呢?因为滴滴打车在工作日的高峰都是从10点到下午5点,基本上都是出去办事的人会用滴滴打车。但是Uber有两个明显的高峰,一个是在6点到9点,一个是在晚上6点一直到10点。所以说乘Uber都是自己付钱的,自己上下班或者自己出去玩的,用滴滴打车的人都是公司付钱的。可以看到用滴滴打车的用户38%都是用苹果的,用Uber的人98%都是用苹果的。
这是一个高频次用户的情况,大家都在北京,我就不再讲空载了,在人民广场和陆家嘴大家没有太多的概念。这个就是一些高频次的用户交易的情况,这是我们看到上海在某一段时间所有出租车的情况,可以看到红色的热点的地方就是出租车比较多的地方。其实你会发现,那些热点旁边,你隔可能两百米或者隔两条马路,那个地方的出租车的热力图就变小了,你可以到那个地方打车。因为我们发现,即使在高峰的时候,上海出租车的空驶率差不多有20%到30%左右,高峰的时候还是可以打得到车的,只不过每个人都在同样一个地方等车,看到这张热力图之后就可以选择到别的地方去打车。
这个也是比较有意思的,我们有时候打车上车司机会先问你去哪里,比如说去机场他会很开心,因为机场比较远。但是其实在上海的情况不是这样的,我们研究了很多出租车司机的情况发现,在上海同样运行21个小时,他们的车子要交班什么的,其实坐短程的司机收入更多,短程司机的收入差不多是1240块钱,做长单的司机收入只有850块钱,差不多是前者的2/3。这个还是不一样,而且他们走的地方都是不一样的。为什么呢?这个就是说明你平时的概念和你实际发生的情况是不一样的。
这是一个金融客户的情况,他们在不同的省的情况,不同的运营商的情况。这是他们的一些婚姻的状况,他们比较感性的地方,他们住在什么地方,他们是不是有自己的房子,他们是不是有汽车。我们把这个金融客户里面航空公司常旅客的人拿出来,他的用户16%是航空公司的常旅客,大部分都是男的,说明女的出差比较少,而且他们的年龄是比较集中的,25岁到34岁,这些都是一些用高维度的情况去发现用户,再把这些用户的情形帮你应用到场景里面。拉卡拉给了我们一批数据,差不多6万条,这些人是信用比较差的人。后来我们研究之后发现这些人有三个共同的特点:一是这些人大部分都是30岁以下,但是已经结婚的;二是他是30岁以下已经结婚了,但是已经离过一次婚了;三是这80%的人都用过万能钥匙上网,我不知道是否知道什么是万能钥匙,就是蹭别人的Wi-Fi,这是在征信里面比较明显的特征,如果这些人平时做这些事情的话,你可以把这些维度拿出来,给他放贷的时候要有别的条件,这是数据应用的场景。
这是一个单体的用户观察他的逻辑的轨迹,你看了他的轨迹之后,你根本就不用看他的单位就知道他是干什么的,这就是他活动的地方。
接下来我讲一下我们的产品,叫晶赞天机,这些图都是我们系统的截图,实时可以看得到的,你实时的数据进来,我就可以实时的反馈给你。我们主要做这样几件事情,不同渠道的数据汇集整理,不同渠道的发现,不同场景的受众应用。很多的国企数据不能留出自己的系统,保证数据的安全,要做快速的部署。为什么讲这些东西?因为我们大数据的管理平台是高维度的数据管理平台,我们不做结构化或者是跨界的数据,我们只是对受众进行研究的一个平台,叫晶赞天机。
我们认为一个比较领先的数据管理平台应该包括哪些方面?不同渠道数据的整合能力,我们有一个客户是一个保险公司,他经营了20年,他是第二大的国有保险公司,他差不多有5亿条的用户数据,有10几条用户线,有卖车险、寿险的等等,有的是用Excle大表保存的,有的是用App下单的,还有合作伙伴的数据,有一些是4S店的数据,这些数据都是存在不同的地方,用不同的格式保存,还有广告的数据。但是如果你要做用户受众的数据观察,你做的第一件事情就是要给这个用户做一个统一的ID,把不同场景的数据打通,需要不同渠道的整合能力,还有一个多维度的数据分析的能力。我讲了,不同的场景里面是需要不同的维度的,好比我们通常看一个人不会关心一个东西,但是保险公司很关心,保险公司很关心这个用户是不是丧偶,这个普通人不会去关心,你跟人打交道,你说这个人喜欢什么,你不会担心他丧偶。但是保险公司认为丧偶的人,他购买保险转化的比例是非常高的,因为他更加需要一个保障。这个时候供应这个数据维度的时候,就要有这个方面。还有数据在不同应用场景的应用能力,最重要的是放在最后面,就是数据安全的能力。我把数据放在你这里,你怎么保证我的数据不给竞争对手看,你怎么保证有不同级别的人查看数据。如果各位在做自己公司的数据管理平台,要从这些方面去看一下。
我们认为大数据管理平台应用的核心,第一个就是做用户的数据收集,我们所认为的用户数据收集第一部分是客户第一方数据,就是你自己有所有权的数据,CRM的数据、合作伙伴的数据、广告的数据、从其他人那里购买的数据。第二要做人群的画像,帮你做商业智能方面的指导,这个人有什么兴趣爱好、消费偏好是什么。还有一些用户,比如说我是大众汽车,这个人已经是我的用户了,我想看看哪些人和他比较像,比如我们发现买奥迪A6的用户基本上都喜欢买养生的东西,我就知道这些人都是奥迪A6的用户了,我想看哪些人喜欢买家电,喜欢买养生的东西,找这些数据做一些数据供应,这是做一个大数据平台需要的几个能力。
核心问题就是我刚才讲的,不同渠道来的数据怎么做整合,你怎么全方位的描述用户的特征,完成人群的画像,指导一些数据应用。广告投放我认为只是一个最简单的应用,因为现在广告投放这个应用比较容易实现,因为下游的公司比较多,就是帮你呈现这些功能的公司比较多,而且这些公司都比较开放。我认为更多的数据的价值是在什么地方体现的?是在和用户一对一营销的地方体现的。前一段时间我认识一个公司给其他人供应数据,给欧莱雅供应数据,供应真实的男女的数据,一条信息要收一块钱。我开始不明白,我说为什么要买一个男女的信息呢?后来那个欧莱雅的人跟我讲,在全国几千个柜台,包括收集了很多用户的资料,但是前台的人我们对他们收集用户资料有指标,我今天收集了多少用户,你给我。但是他们发现很多的用户其实都是男的,其实前台的营业员为了完成这个目标把这些信息收集过来。但是每个月都要寄一个DM给他,现在邮费最起码一块钱,印刷最起码五块钱,还要做一些设计,这些都是大量的浪费。所以他们就要真实的性别的供应,他们把这些数据拿出来,给这些供应性别的公司一看,其实都是男的,就终止了这个浪费。一年浪费100块钱,做一次鉴别之后,这100块钱就省下来了。
我们第一步就是做数据的整合,做一些数据ID的图谱,这个用户的ID,我看到现在国内的公司主要是用户的手机号码作为主要的ID,这个ID后面可能跟了很多其他的维度。还有你要做画像,画像要描述出API,包括呼叫中心、广告投放和其他网站的优化。我们的数据分析或者说大部分的数据分析是怎么做的?我们认为数据分析无非是两个方面,一个是K,一个是Value,K就是相关的思维度是什么,Value是频率或者是重度是什么,你再根据标签或者是维度去观察用户。
这是数据应用的一个例子,可以把数据推送到一个广告的投放。这是我们给一个保险公司客户做的东西,有CM的,有呼叫中心的,有文本的格式,总共是5亿条的数据,时间的跨度就是从这个保险公司成立到现在,大概5亿条。我们花了一个星期把这些数据全部导进去,这些人不同产品的用户是什么样的,男性、女性,还有其他的一些情况。这个就是他可以看到的维度,这些用户喜欢买什么东西,他的年龄、性别、爱好,他住在什么地方,工作在什么地方,他可以掌握这些东西。
这是另外一个应用的案例,这个案例就比较简单,也比较有意思。这是一个澳门的酒店,澳门金沙酒店做一个广告的投入,因为澳门离广东很近,到澳门去赌钱的人通常都是从广东开车,把车放到珠海,坐船去住一个晚上。我们帮他做数据管理的时候发现他很多用户都是安徽来的,都是安徽的用户在访问这个网站。我们觉得很奇怪,我们去看到底从什么地方来的,后来发现是从一个卖票的网站来的。再进去发现这些安徽的人都是要去搜索张智霖的演唱会,可能那一段时间张智霖在安徽卫视做节目还是什么。所以他就改正了投放的策略,他本来说可能只有100万,只要放在广东地区看,别的地方的人不需要看我的广告,但是他发现安徽的人对这个东西非常感兴趣,所以后来他花了一些钱在安徽去做投放。后来他在两个地区,一个是广东,一个是安徽。广东做的就是他自己原来做规划的,对于什么奢侈品感兴趣的,搜索过什么样的,澳门酒店等等。安徽是访问过那个票务网站的,看过张智霖演唱会的,而且不同的人还出了不同的创意,广东的那个创意看起来很好,其实是很Low的,这种创意到处都可以看得到。但是安徽的创意不一样,安徽的创意就放了一个张智霖演唱会的一些情况。但是可以看到,这个时候用数据和没有用数据,或者是用相应的维度数据,结合你的市场应用的一个结果。用户预定每日每人每夜酒店的成本,可以看到安徽平均的成本只有历史成本的30%,广东的平均成本差不多是90%,所有平均的成本差不多是在60%左右。所以这就告诉你,数据可以带给你很多不一样的东西。
这又引出了另外一个概念,其实在我们今天做一个市场活动,或者是去做一个业务的时候,其实核心并不是你的老板说我今天想怎么干,或者我打算怎么干,核心是我们的用户,用户告诉你应该怎么做,用户告诉你我希望听到什么东西,你才会用用户希望听到的东西跟他沟通。这就是我认为数据应用在目前最成熟的应用于市场活动领域的情况。
我们今年跟埃森哲、微软、Oracle还有上海大数据交易中心一起做了一个行业白皮书,这里面有些知识性的东西,如果你们有兴趣的话可以扫描这个二维码去下载一下,谢谢!