中国IDC圈12月31日报道:一个数字世界的大门正徐徐开启,大数据成为时代之光,无处不在。
数据随着技术进步不断地积累、繁殖,数据加工处理能力也以几何级速度暴增,营销和管理是否可藉此变得更加简单和精准?这是一个值得研究的问题。近年来,基于中国大数据的管理学术研究日益受到中外学者的重视,日前,复旦大学管理学院数据驱动管理决策研究中心举办“基于中国大数据的市场洞察和管理启示”国际研讨会,邀请经济学、金融学、信息管理系统、新闻传播、市场营销、运营管理和统计等领域从事前沿研究的学者,分享基于中国大数据的市场洞察、管理实践启示以及研究方法,会议同时邀请大数据相关产业的企业高管共同探讨中国大数据应用的现状、趋势和前沿问题,以及大数据产学研用国际合作的方式与前景。
告别泡沫,走向真正的大数据科学研究
媒体消费行为与商品消费行为是无缝衔接的,媒体大数据的挖掘跟市场营销管理决策紧密关联在一起——消费由消费者接触媒体后产生,并通过媒体实现,消费后会把评论和感受反馈到媒体上。
当今社会,什么是文科?什么是理科?我是新闻学教师,新闻学院传统上教授的是文科内容,曾经有同学就因为不想学数学才考进新闻学院。然而现在,要想学好新闻,必须数学好。为什么这么说?今天我想谈一下大数据在新闻传播学中的应用。
首先,什么是传播学?营销跟传播关系特别紧密,均涉及怎样把事情或信息传出去的过程。1948年,美国政治学家拉斯韦尔提出传播学的“5W”模型,明确提出了传播过程及其五个基本要素,即:谁(Who),说了什么(Sayswhat),通过什么渠道(InWhichChannel),对谁说(ToWhom),取得了什么效果(WithWhatEffect)。
以前,新闻传播学比较忽视数据,通常采取“传者中心”模式,希望控制和影响传播过程和效果,发布内容和渠道都由从业者决定。现在,传播业面临剧变,从“5W”中就可看出——传播者从少数精英变成万众;媒体从传统纸媒转变为网络,从大众媒体到社会化媒体;内容原来是有限供给、定时生产,现在是无限丰富,24小时供应;受众从被动接收信息到主动参与、从分散独立到组织互联;效果从难以评估到可以评估。
数据显示,今年9月新浪微博日均活跃用户数达到1亿,每天发布的文章和照片是海量的数据;微信已成为的移动社交平台,有6.5亿的月活跃量,有超过1000万的微信公众号,这背后代表的是社会的“脉动”。媒体的运营方式由此发生变化,以前是专业化生产,现在有两种,一是UGC(用户原创内容),另一种是AGC(自发生成内容),基于某一特定算法自动生成内容。营销过程中也必须洞察这些变化,知晓客户的变化和组成。
在媒体行业,有文字数据、文本数据、关系数据、时间数据、空间分析数据,有音视频的数据,有用户属性、行为和关系的数据等等,最早的大数据是收视率,一个企业要投放广告给电视,首先会考虑收视率。收视率怎么测量?最早是通过人工记录收集,但即使上海只有一千户人家,每隔15秒记录一次,产生的数据也有近600万条,这个数量级已没法用人工处理,后来就通过测量仪测量记录了。
2010年电视基本数字化以后,收视率测量更加精准。今天,我们可以用收视率大数据做很多分析,比如时间序列的分析,可以观察到一个家庭的ID、个人的ID、时间码和观看频道等,时间码可以追踪观众行为变迁的轨迹,电视台可以据此编排节目,广告商和企业可以依此决定购买那个时段投放广告。
在海量数据面前,新闻传播学开始运用信息化的方法、专门的计算和分析工具,研究人类传播行为及其背后的模式法则,形成数据新闻和计算广告等学科,集传播理论、编程、统计建模和计算思维于一体。自此,已很难分清文理科的界限。
新闻传播学中的大数据,首先体现在数据新闻和可视化新闻上。美国媒体上曾刊登了一张类似股市K线图的图表,它代表的是一年中不同时期一千万美国人分手的比率,背后的数据来源于Facebook(脸书)上的个人页面,形成了一个可视化的图表,人们从中可以清晰地看出,美国人在感恩节、圣诞节前后和夏季时提分手,愚人节时却很少分手。
现在,越来越多的媒体呈现可视化的作品,背后都是数据挖掘工作。英国的《卫报》、BBC、美国《纽约时报》、CBS等都在出产数据化作品,从尝试变成常规做法,从简单信息图变成可交互的专题甚至是游戏。在产品营销过程中,企业和广告商也可以根据实际情况多应用可视化的方式。
大数据在传媒业的另一个应用领域是网络舆情分析,跟营销关系也很密切。网络舆情怎么测量,跟网下舆情有什么关系?明星范玮琪在新浪微博上“晒娃”被骂,但为什么是范玮琪?她没有王菲有名,粉丝也没有小S多,发个照片怎么就能引起轩然大波?因为新浪有一个数据算法,算了以后范玮琪在那个时段被置顶到热点排行榜,越来越多的人点击到她的页面去看,结果比大阅兵点击率还高,就被部分网民骂了。在这件事中,是服务器影响和改变了舆论。现在的网络舆情是怎样生成的值得关注,我们逐渐从中看到了数据的力量。
以前,我们打100多次电话做一个舆情的调查,很累,现在都是通过大数据来分析。中国人的情绪在微博上是什么反映?基本上,过年的时候高一些,年底放假很高兴,过年的时候兴,地震的时候低一些,每年的趋势大体差不多,有一些特殊时点有些变化。
从新闻传播角度讲,一方面要理解和学习数据的结构,运用大数据服务新闻、舆情分析、后台分析、计算广告和营销效果评估等;另一方面应该思考怎样有限度地使用数据的价值。比如,计算新闻学应用场景数据、舆情分析等提高信息和新闻传播效果,日益得到重视。但大数据的发展还有很多挑战,数据非常多,但不一定完整,不一定准确,背后需要发掘的东西太多,应该告别大数据泡沫,走向真正的数据科学研究。
传媒业的数据已成为社会大数据的重要来源,也是影响市场和管理的重要因素,很大程度上影响到营销、消费、决策。现在,媒体消费行为与商品消费行为是无缝衔接的,媒体大数据的挖掘跟市场营销管理决策紧密关联在一起——消费由消费者接触媒体后产生,并通过媒体实现,消费后会把评论和感受反馈到媒体上。
信息的传播者还会通过搜集相关数据,精准定向广告的受众,测量广告扩散的广度和深度,测算广告对品牌认知、购买行为的影响,用大数据分析电子商务与广告的效果、消费者口碑传播的心理和行为、评论的文本、传播效果等。
找到好问题,体现数据的价值
很多人拿到数据特别高兴,我现在不这样了,数据都好不到哪儿去,拿到数据只是第一步,找到一个特别好的研究问题才是关键。我觉得如果用中国数据,用这些数据去测试一些特别大的问题,这才能体现数据的价值。
做研究有两类,一类是做理论的,他们只写公式,文章里没有数据;我是做实证的,拿数据验证他们的理论,我办公室有三四台戴尔并行服务器,一台一万美元,但我的技术还是比不上今天真正研究大数据的,他们都是既懂统计又懂计算机的人。
很多年前,我在国外做研究时,基本上用的都是中国的数据,有一些电商的数据,比如淘宝的,有家电下乡项目的数据,还有网游的数据。从几年前开始,学术研究中中国的数据越来越多,我就思考,这些数据有没有问题,比如,中国的数据有什么独特之处?有代表性吗?研究结果能不能在全世界通用?这些数据可靠吗?
为什么要用中国的数据,我个人的经验总结,主要是三点原因,第一,美国等国也有类似的数据,但拿不到。我是百度营销研究院的顾问,除了核心数据基本都可以接触到。第二,研究涉及中国或者新兴市场特有的问题,用中国的数据顺理成章。第三,这个问题在中国和国外都有,但在国外验证起来更加困难,或者可能没有条件去验证,但在中国,验证起来特别顺利。
我做过一些经济现象的实证研究,在此讲一下背后的大数据情况。
首先,第一个问题是extortion(敲诈勒索),很多文章和理论都认为敲诈勒索会影响市场效率,但实证研究很难做。现在线上电商平台越做越大,线上顾客打分、评语很重要,评语会影响其他顾客的购买行为,商家受此影响会改变行为。有些不太好的顾客看到这个机会,就会利用写评论敲诈勒索,写差评要挟店家。
2012年到2013年的时候,差评师很猖狂,我们从淘宝拿到了这方面的数据。当时淘宝派人打入这些差评师的机构,潜入他们的聊天室,分析他们的行为,拿出好几份不同的报告,内容有重合也有不同,这些数据不是特别清晰,也有一些误差。
我们根据这些数据,到差评师买过、评过的女装商品下,分析差评师的留言和行为。第一,我们研究这些差评师选商家时有没有规则,是用一套专门的体系化方式选人,还是随机的?第二,差评师这么做之后,对商家的影响是什么,商家的行为会怎么改变?第三,这种行为导致的经济损失有多少,近期、长期损失是什么?
做了一系列研究分析后,我们发现,这些差评师总体上是有套路的,但套路不是特别优化,有时他们并不能从差评中获利。我们还发现差评师对商家的两个影响:因为大家都看评语买东西,差评一出来销售额会掉下来;所有被勒索的卖家基本上会做两件事情,一是降价,二是谨慎接单,如果一下子来100个单子,他不会全部接受,会挑选,变得小心翼翼。短期的销量降低了,而长期来看,经过几周之后,销售额反而一直是上升的,商家自己行为的改变也影响了最终长期的效果。
另外一个是家电下乡项目的研究。国家2007年底提出并实施家电下乡政策,持续了三四年,对农民购买纳入补贴范围的家电产品给予一定比例(13%)的财政补贴,设置各类商品的补贴上限。厂家开始投标,符合条件并获政府批准后就可以卖产品了。农民买了之后,拿着发票到当地政府去报销,政府直接补助农民。我们研究组当时拿到了每一项交易的数据,每个交易都知道谁是买方谁是卖方,零售商是谁,买的产品是什么,多少价格买了多少数量,知道交易的时间和地点。
根据这些数据,你如何评价这么个大项目?政府花这么多钱是否达到了目的?我们发现一个有意思的现象——在那几年时间里,中标公司的分销网点增加了很多。我们知道,这个政策面向农村地区,很多是贫困地区,以前农民想买没地方和渠道,现在,除了获得补贴外,他们有了购买的渠道,这也是政策的效果之一。我们还构建了数据模型,来算政府补贴比例的有效区间等。
看这些数据时,我们发现另外一个现象:每个厂家的产品必须低于官方定价,上端的厂家就会去限制产业链下端的厂家,经常有违反合约的情况。这些数据让我们兴奋,这是一个特别大的经济学课题,很多文章在研究,但还没有实证研究。拿到这些数据后,我们就可以做实证研究了——违约行为到底能不能用经济学模式研究出来?这种违约或许是一种均衡的结果,是有模型可以预测的。的实证研究发现,情况就是如此,这是一种均衡的结果。
最终总结一下,很多人拿到数据特别高兴,我现在不这样了,数据都好不到哪儿去,拿到数据只是第一步,找到一个特别好的研究问题才是关键。我觉得如果用中国数据,用这些数据去测试一些特别大的问题,这才能体现数据的价值。
用数据解决企业“一公里”问题
在研究中,我们有个“大数据引擎”模型,其中包括各类外部大数据、个人数据和第三方数据等,我们将用户归类,把同一个人在不同平台上的信息数据整合起来,这样的研究结果影响了企业营销的方式和效果。这种研究和应用,对于企业挖掘“沉默的大多数”用户非常有帮助。
我做数据挖掘工作快16年了,我在美国读博士时的导师,就是数据挖掘方面的专家。近几年,我在新加坡管理大学做的比较多的是用数据研究用户行为和集群等方面。在这一方面,我们和国内很多企业合作,比如和平安集团合作快三年了,帮他们用大数据做了很多项目和分析,还和新加坡星展银行做类似的研究合作,今天讲的,很多是从这些项目中提炼出来的内容。
我的演讲主题是数据驱动、技术赋能的商业智能化。在跟企业交往中,我越来越有一个强烈的感受——虽然大家一直在谈大数据,但现实中很多企业的信息化程度太低了,我们曾到一些非常好的企业去看他们的数据,很乱,还有很多缺漏。
目前的经济趋势下,很多金融企业感到了市场的压力,不再被动地等着顾客上门来网点办业务,而是把金融服务嵌入客户生活工作中、“医衣食住行”等各方面,但前提是你首先得了解你的用户和潜在用户,这就需要大数据的支撑。
一般情况下,企业内部资源和能力都是有限的,获取数据时面临可持续性、隐私保护等挑战;即使企业对某一用户很了解,对他的特征画像非常完整,但关系怎么维持?传统的电话营销方式还有多少空间?如果没有这个营销方式,我们怎样开展业务?
我们主要想解决企业“一公里”的问题,用数据挖掘价值、或在应用数据中体现价值。
我们用的外部数据,目前是社交媒体的数据,企业内部数据通常是交易记录为主。客户买了还是没买,用了还是没用,通常是商业活动的结果,如果要讲更好的用户体验,就要更多地“追因”,这时,外部数据就可以提供更多依据。比如,一个人买手机,是给自己、给父母、给孩子还是给太太用?商业单据里只能看到购买结果,购买原因要通过外部大数据提炼出来。
通常,企业会关注他们的顾客,但却很少看到客户与客户之间的关系,这个关系会产生一些意想不到的影响,比如说有两个大客户来存钱,每个人存几亿元,谈的时候银行给两人不同的利率,万一他们是好朋友,回去碰了面一合计,总归会有一个人不开心。由此,企业的数据应该实现内部、外部和内外部之间打通,形成用户的全景式信息体系,形成一个网络和各种针对性的产品模型。
在研究中,我们有个“大数据引擎”模型,其中包括各类外部大数据、个人数据和第三方数据等,我们将用户归类,把同一个人在不同平台上的信息数据整合起来,这样的研究结果影响了企业营销的方式和效果。比如,保时捷以前过年过节过生日会给客户送礼物,现在他们已经知道客户是喜欢红酒还是高尔夫,从而进行个性化定制服务以维护客户关系。
这种研究和应用,对于企业挖掘“沉默的大多数”用户非常有帮助,比如,在1.5亿用户和潜在用户中做精准营销。以前我们跟平安保险合作,每天从1.5亿潜在用户中筛选出50个最需要打电话的人,让企业直接做营销。这之前,我们会整合研究一个人在各平台上分享的信息,处理之后打上标签——这一条是聊孩子的,那一条是讲旅行的,总结下来就可以看到Ta在时间轴上的兴趣变化和分布,有可能准备要生孩子了,或者有计划去欧洲旅行了,这时候就可以有针对性地向其推送一些产品和服务。
关系类大数据还可以用来进行风控。如果一个客户违约或者信用很差,银行在挖掘、掌握他的一些社会关系网后,就可以对与其相关的人进行着重关注和筛查,在贷款等业务上谨慎出手控制风险,以防失信客户让其亲戚朋友继续代其申请新业务。再比如,如果在关系大数据中涉及的不是高风险,而是高价值呢?一个人在银行存了好几亿元,他太太也来存钱,银行在了解他们是夫妻关系后,会给她推荐什么产品呢?这些都是值得研究思考的。
接下来讲一下大数据在房地产业的应用。我们最近和绿地、保利合作,做众筹、虚拟买房等项目,使技术和渠道相结合,用大数据获取客户。
首先,我们用关系类大数据做营销。买房通常是以家庭为单位,先生买一套,再给他太太推销一套,不太合理,我们就用互动好友的数据,在每个人周围找出10个好友做营销。第二,给客户画像,把现有客户资料跟业务经验结合起来,连接上外部数据大平台,可以产生很多潜在新客户的画像。比如,我们和济南一个楼盘开发商合作,先根据业务经验和现有客户,总结出目标客户群年龄是多大、收入有多少,初步筛选后剩下60万候选客户,再结合大数据做一些潜在新客户模拟,产生2000个潜在用户。当我们发现这个用户在网络上写到“想换房,最近也光临过一些楼盘”,那么就可以将其放在潜在客户名单上进行重点营销了。
我们还对信息获取渠道做数据分析,那么就可以知道应该去什么地方做广告——网络、报纸广告怎样投放最有效,微信要不要用公众号推广一下,户外是不是应该弄一个签到地点,这些对企业营销都非常有用。
刚才是讲我们能做什么,还想说,有些问题我们也应该注意,比如说隐私问题,数据不能随便用了,隐私边界怎么界定,企业间的数据交换怎么定价,等等,希望大家一起关注。