中国IDC圈4月20日报道,一篇来自麦肯锡公司的报告曾指出,直到2009年底,那些拥有超过1000位雇员的公司已经存储了他们客户的日常生活中超过200万亿字节的数据。
在过去的四年里,社交媒体上数据的暴增,增加了这一惊人的存储数据量:上万亿条推特消息,数十亿个Facebook里的“赞”,还有更多数量的Foursquare(签到应用的鼻祖)“签到”。还有Instagram和Pinterest也为海量的信息数据做了贡献。光是社交媒体所收集的数据,其数目已足够惊人。
社会媒体加快创新的步伐、促进成本的节约并加强品牌间的大规模合作。在每一个行业,公司都在使用这些平台来经营和提升他们的服务和产品的质量,并监测其用户们对于他们品牌的反馈。
社交媒体与大数据的结合将达到一个全新的技术水平。
作为一个在近五年里积累了超过12亿全球用户的主流网络平台,Facebook存储了大量的用户数据,这使它成为一个巨大的“数据乐园”。
2015年社交媒体市场营销行业报告指出,Facebook在众多社交平台中独占鳌头。
我们每天都推送给Facebook数据库成堆的信息:100亿条Facebook消息被发布、45亿个“赞”被点击,还有3.5亿张新照片被上传。
大多数人起初可能对这些信息一屑不顾。但是有了这些数据,Facebook就能知道谁是我们的朋友,我们是什么样子,我们在哪里,我们正在做什么,我们喜欢什么,我们厌恶什么等等。一些研究者甚至认为Facebook掌握我们足够的信息,所以它比我们的个人医生更懂我们!
除了谷歌,Facebook可能是唯一一家拥有消费者高度详细数据的公司。使用Facebook的用户越多,他们获取的信息也就越庞大。Facebook斥巨资来提高他们自身收集、存储和分析数据的能力,但它并不是止步于此。除了分析用户数据,Facebook也有其他分析其用户行为的方式:
1. 跟踪电脑cookies:Facebook在互联网上通过追踪cookies来追踪它的用户。若用户在登录Facebook同时浏览网页,它就能跟踪到其用户正在访问的网站地址。
2. 面部识别:Facebook近期将投资重点放在了面部识别和图像处理功能上。Facebook存储用户共享图像,所以它能在网络上跟踪到用户和其他Facebook用户头像。
3. 建议使用的标签:通过在Facebook里添加的标签,用户的图像能够进行画面处理和面部识别。
4. 分析点“赞”:最近一项由剑桥大学和微软公司研究院发起的研究表明,仅仅通过分析用户在Facebook点过的“赞”,就能精准预测其在一定范围内的个人特性,这包括预测用户的性取向、对生活的满意度、智力水平、情感的稳定性、宗教、酒精以及药物的摄入情况、情感状态、年龄、性别、种族以及政治观点等方面的信息。
Facebook 公司的首席分析师Ken Rudin曾提到:“大数据关系到公司的生死存亡”。他补充到,“Facebook依赖于Hadoop(分布式系统基础架构)式的一个大规模装置,那是一个通过廉价服务器群来解决问题的可拓展的计算机开放源代码框架。出于这个目的,Facebook甚至设计了自己的硬件设备,而Hadoop只是Facebook应用的众多大数据技术的一种。
实例:
以下例子展现Facebook如何利用其存储的大数据。
Facebook照片回忆器
在公司成立十周年之际,Facebook向用户提供查看和分享短片的功能,这个短片记录了用户从注册之日到现在的社交网络活动。这就是Facebook的照片回忆器,这段视频其实是由用户收获了最多评论和“赞”数的照片和状态组成的,并配上一段怀旧的背景音乐。
“我已投”
Facebook已经成功将政治活动捆绑在其用户的参与中,他们通过一个社会实验使用户能够用一个在他们个人资料上的显示“我已投”。
这个实验在2010年美国中期选举运行地十分有效。当用户看到投票按钮,他们就极有可能去投票,并会在和他们同样参与其中的朋友直言不讳地分享。在Facebook所有的6100万用户当中,有20%的用户看到他们的朋友们投票了,自己也会去投。
Facebook数据科学部门称,通过6万名选民在Facebook上的直接投票和由社会感染效应而产生的28万名选民,总共为这次中期选举贡献了34万张投票。
庆祝骄傲
高法院宣布同性婚姻合法化后, Facebook随即推出一款叫作庆祝骄傲的彩虹大头照滤镜工具。类似这样的庆祝活动之前是前所未见的,直到2013年,当时300万用户开始将头像改为红色等号以此支持婚姻平等,“红色等号”正是美国具影响力的反同性恋歧视组织HRC标志。Facebook提供一个简单方法将头像变成彩虹色。
据Facebook发言人William Nevius说,短短几个小时内就有超过百万的用户更改头像。在这样的狂潮下,人们不禁关注起Facebook在进行用户情绪的追踪方面和其隐藏行为方面的研究起着怎样的引导作用。Facebook的两位数据科学家在发表的论文《对线上社交运动支持的扩散》中分析在Facebook里能预测婚姻平等支持率的要素。根据这篇文章可知导致用户将头像更改为红色等号的原因。
担忧
隐私问题
因为数据隐藏着巨大财富,广告商如饥饿秃鹫般伺机等待。这导致用户对隐私问题的高度担忧。尽管Facebook不断向用户保证信息只有在用户允许下才能共享和匿名出售给市场营销者,但是问题仍然存在。举个例子,很多用户抱怨隐私设置不易理解或太复杂。用户很容易不经意间分享他们的状态。Facebook为了解决这些问题反而使得用户更加迷惑。
另一个浮现的隐私问题是由脸部识别引起的,这一技术促使2011年欧盟隐私监管机构进行调查。Facebook的照片搜索功能又引起一场轩然大波,因为该功能给陌生人提供比以往更多访问私人数据的信息。
因此,Facebook用户都有一个问题,个人隐私真的无法保障吗?
Facebook的两个问题:
Ken Rudin 说依赖大数据的公司经常在框架结构上有两个错误:
1.他们过于依赖某一种技术,如Hadoop。Facebook依赖于Hadoop软件的大量安装,这个高度可扩展开源框架利用大量低成本服务器来解决问题。为了这个目的,公司甚至设计自己的内部硬件。Rudin先生补充道Hadoop只是众多大数据技术的一种,是不足以满足公司业务需求的。
他又说,“Facebook分析过程始于300PB数据分析仓库”。为了应答特定查询,数据经常被分离出数据仓库,放在表中使得数据能被研究。团队也研制一个搜索引擎对数据仓库中数据进行编制索引。这些都是Facebook为管理和分析而使用众多技术的冰山一角。
2.公司常常为了无意义问题使用大数据。Rudin先生说“在Facebook,所谓一个有意义问题是被可以答出可以改变行为的基础性问题。如果你不认为一个问题的答案可以引导改变你的经营模式,那么这个问题根本没有问的必要”。
Facebook的最近进展
主题数据
Facebook最近向它的一些合作伙伴介绍“主题数据”。
“主题数据”是什么?
“主题数据”是这样一种能将消费者关于品牌,事件,活动,和主题的反馈展示给市场营销者,在某种程度上保护消费者个人隐私的技术。
市场营销者反过来可以利用从“主题数据”得到的信息来选择性得改变他们在平台和其他渠道的营销方式。
先前由第三方提供的此类数据由于样本量过小而收效甚微,况且得到规律是不可能的。通过引入“主题数据”,Facebook将数据分类并且将相关用户的个人信息剥离,通过提供某个特定活动中用户潜在的(消费)行为来帮助市场营销者。这为市场营销者带来一个可行的,全面的首次新用户视图。
关于隐私问题,Facebook已作出安全承诺。所有用于主题数据的信息都将被匿名收集。