中国IDC圈9月1日报道,8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,汇聚了业界领袖、行业专家,他们将从产业的角度和技术的角度来解读数据从何而来,数据如何应用,数据重新构未来。

在29日下午的活动中来自知乎的CTO李申申跟大家分享了在数据爆炸时代知乎是如何进行大数据价值挖掘的。

D3S_4420

知乎CTO李申申

以下是知乎CTO李申申演讲内容(根据速记整理):

李申申:大家好,我是知乎的李申申,不要看日程表上,那个日程表可能跟实际不一样。

刚刚主持人说有一段时间大家讨论知乎上的内容,从我们看到的情况来说,大家讨论的趋势越来越热烈了。前面各位老师就行业趋势产业大势说了一些东西,今天我的分享和演讲,可能会说一些跟知乎具体有关的一些信息。首先我想跟主办方七牛说一下谢邀,感谢他们提供这么一个专业的平台。果然在座的知乎用户很多。

感谢他们提供这样一个平台,讨论这样一个有趣的话题。但是其实刚刚接到邀请的时候,到我脑海里面的第一反映是这句话,所以想跟大家说的是,我们知乎也在做一些跟大数据有关的事情。说这个话的人其实是怪诞行为学的作者,他本身是行为经济学的教授。我为什么想到这句话呢?其实整体对于大数据的感觉是我们现在确实是处在比较早期的阶段,知乎在这方面应该是处在刚刚起步的阶段,今天借这个平台跟大家学习。说到大数据,这个话题很热,于是我在知乎上看了一下整个讨论的热度和趋势,绿色的线,就是讨论大数据的整体,在知乎上的趋势。然后我又拿了另外一个很热的词,O2O,相对比较平的线是讨论O2O的趋势。我又在谷歌上看了一下讨论这两个方面的趋势。我们发现11年初的时候,整个大数据关注热度也在持续的升温,对于O2O和共享经济相关的关注,反而远远不如大数据的。于是我比较好奇,我又看了另外一个大量人群的用户,百度,我发现百度很有个性,它跟知乎跟谷歌都不太一样,他们的用户关注O2O的更多一些,关注大数据的会少一些。我不知道是不是今天百度的用户是不是比谷歌的用户更少一些。

好的,下面开始跟知乎有关的一些话题,首先我会介绍一下知乎的一些基本面的数据,从10年到现在已经有两千九百万的用户。这些用户创造了接近620万的问题,同时还创建了接近两千万的答案,每个月差不多有1.1亿的人群使用知乎。每个月我们页面访问量达到三个亿,所有的答案汇总起来总量达到了41亿,这就相当于一百部大不列颠百科全书,如果这个还没有概念,鹿鼎记都看过吧?差不多相当于2600部鹿鼎记的字数,就是在四五年前创建的规模吧。

在知乎上,我们下面看的两个数据,应该说也是代表了,刚才我所说的,大家的讨论其实是越来越热烈的趋势。我们来看两个,一个是千字以上的答案,另外一个是得到一千个赞同的答案。这里要说明的是,我们并不是以这两个指标来衡量作为高质量的一个标准。但是确实如果用户他可以写千字的用户,说明他的态度是认真的。这也符合知乎的理念。另外他如果能在知乎上得到一千个赞同,说明回答质量是比较高的。整体趋势一直在上涨。总监可能会有小幅的波动,那个主要是因为,可能在二月份过年的时候,应该是互联网集体的静默期,这是得到一千个赞同回答的整体的增势。

在知乎上面其实我们讨论的话题是多种多样的,每个人脑海里面,其实都有着非常有价值的信息。知乎想做的事情是想让每个人脑海里面有的专业知识、生活经验、人生见解都写出来,这样可以发挥更大的价值。在知乎上既可以听到前一段时间天津爆炸的时候,有一位工程师就回答了一个问题,当时爆炸的时候,他当时正在附近,他当时就想要把他刚刚修复的bug保存起来。然后你可以跟北美的人讨论一些比较有趣的话题,就是在新鲜的伤口上撒一些嫩肉粉会有什么后果,当然也可以讨论各种各样的问题,目前在知乎上讨论的话题已经达到了十万。我们以一些知乎上的话题来说明一个情况,我们看到这里面列出了心理学的话题,互联网话题以及经济学话题,在知乎上讨论比较常见的话题,我们也可以看得出来讨论的热度,一直是比较均衡,微微上扬。这时候突然出现一个热点事件,会突然抓住更多人的眼球,但是并没有影响其他话题领域的讨论,并且它会带动一些相关话题,比如天津爆炸,会跟后续的讨论,会有一些跟心理学有关的讨论,所以我们会看到心理学的讨论也微微的被带起来了。知乎现在就像一个广场,广场中心有个喷泉,这个喷泉是大家关心的时事热点内容,广场周边有咖啡馆、茶馆,不同的用户可以在不同的茶馆、咖啡馆里面讨论他们喜欢的话题。

我之前经常被问到的一个问题,就是后加入的知乎用户,是不是相对早期的用户,他们在知乎上更难以存活?他们更不容易获得别人的赞同和认同?我这里有一组数据来说明这个问题。我们取了在知乎上获得赞同前一万的用户,他们的散点用户图,总体是比较均匀的,这个不是很清楚,我们来看一个清楚的,总体是非常均匀的,所以后加入的用户,同样可以产生,你可以获得给更多的赞同。这个图是指刚才的那群用户,他们每天获得的赞同数的情况。我们可以看到整体也是比较均匀的,所以你在知乎得到的赞同得到关注,没有别的办法,只有一个,在你擅长的领域,认真的讨论,贡献你的答案。

在知乎,认真你就会赢。知乎上面其实是内容的流动,其实是靠着很多的社交行为带动的。我这里举了一个例子,说明知乎流动的机制。我举的例子是天津爆炸的时候,这上面有一些问题产生之后,会有用户关注它,关注的行为会进一步的扩散和传播这里面的问题。后面会有一些亲历者,比如我刚刚说到的这位工程师会去回答,以及有人邀请,还会关注,等等一系列的行为,会把它的传播范围不断的扩大,另外的用户对应的内容会进行感谢、投票、评论,他们还会相互讨论,整个讨论的氛围就形成了,这个是在优质内容和社交行为之间不断的滚动。越关越大。

这个就是知乎内容流动的机制,如果没有这些社交行为,那知乎的内容流动起来其实是非常受限的。

下面我给大家介绍的是,我们基于知乎已有的数据,已经做了哪一些基础的动作。我希望借用这样一个平台,与大家有一个更深入的探讨。在知乎上,其实刚刚说到了,有大量的用户行为,还不止有这些行为,还有一些文本信息,这些里面其实也有分轻重,轻的每个人的阅读,应该是大家最常见的行为,相对重一点的是赞同,因为你赞同一个答案的时候,会或多或少想一下。还有更重的,回答。这些不同的行为,会耗费用户不同的时间,他对这个事情的关注度。除此之外,知乎上还有大量的文本信息。这么多的信息,其实对于用户的兴趣点,以及它擅长的领域,我们的挖掘应该是更准确的。下面我就以知乎的CEO周源同志的数据跟大家具体讲讲,我们挖掘出哪一些信息。

这个是周源过去半年主要的感兴趣的话题领域。我们一眼看过去,有很多跟金融、股市相关的话题。我觉得这个可以理解。作为CEO,一定要了解市场的大势,现在外面发生着一些什么,给知乎带来哪一些影响。这里面也看到有一本书,创业维艰,这个我也知道,基本上跟周源吃饭,都会提到这本书里面的某一些细节。这个有机蔬菜是什么呢?其实我后来专门问过他,他说他记不太清了,其实我大概知道,他有一段时间跟我大概提起了,从上面化疗那个词开始,大家不要误会,就是开复中间有一段时间出了一个短片,所以周源对这个感兴趣,我估计有机蔬菜跟这个有关系。

我们再看一下前半年关注的一些事情,稍微有一些不一样,因为前半年的时候,我们有在硅谷办过招聘宣讲会,所以我们可以看到周源在办宣讲会的时候,可以看到他对于斯坦福大学等比较感兴趣。一年半前他觉得Kindle是没有用的东西,他说用ipad看数多好,还可以看彩色的图。半年前他已经买了Kindle了,现在每天带着香客,不带ipad了。

接下来我们来看一下他擅长的领域的挖掘。我觉得总体是对于他背景的认知是准确的,不过中间有一个,我一直跟我们的工程师说,我说你们是不是算错了?就是育儿,因为明明很多育儿的知识都是我对周源说的。我们基于这些数据,其实能够对于用户的擅长的与有更准确的认知,知乎有一个基础数据非常重要的,我们计算了每位用户在不同的话题下专业权重,后面会讲到这个是知乎非常重要的一个数据,在现实生活当中,我们也可以想到,没有全才,一定有你擅长的,一定有你不擅长的。我们来看一下周源在这一些权重里面的分布。好在育儿还是排在最后的。这个权重其实是,我们为每个用户都有计算,而且计算的量是非常大的,知乎现在有三千万的用户,我们会对每个用户不同的话题都在计算,我们现在有十万个话题。而且大家可以算一下,这个量是千万亿级的量。这个数据我们以周为单位,会更新一次。

我另外经常被问到的,知乎的答案排序,有什么不一样。因为我们后面的答案排序让有一些人看不懂,答案排序,知乎非常关键的一个点。早期的知乎答案排序非常简单,就是赞同减去反对,这个是最早期的知乎,当时其实遇到了一些问题,就是友情票太多了,会让不专业的一些内容上去。然后我们做了一些调整。基于专业权重,对于每个赞同会有一些加权计算。这样会有一些比较早的高票的回答,后面的有质量的内容不容易得到曝光,就会一直被压在下面。另外一些煽动性的回答,也会吸引一些眼球,对于它的反对票如果不够多的话,它一样可以在比较高的位置。这两个问题,我们继续做了一些优化和改进。我们基于威尔逊智性空间,自己做了一些调整。这个算法大的优势在哪里呢?我们对于每个答案分析都有一些预测,得到真实的分数,真实的分数会让答案在更准确的位置。做知乎的改进,我们做的不同的改进,能得到不同的用户的反馈。我们新方法上线之后,得到了用户的不同的反馈,帮助我们后续优化。

知乎的用户增加,对应的我们被关注的度也会增加。知乎内部有个强大的系统,叫空,悟空,它会产生垃圾信息。截止到目前,它已经处理了1.3亿次垃圾请求。截止到去年才清理了1亿。

知乎首页是非常重要的功能。知乎首页这一块,我们投入了相应的资源进行算法的优化。这里我们针对不同的用户做了非常构型化的推荐。所以没有两个用户是一模一样的。这里面我们考虑了三个因素,第一个每个条目与用户的关联度,第二个用户的行为跟看到的关联度,还有时间是一个非常重要的因素,事件是衰减的趋势。

其他应用的领域有邀请回答。邀请回答,我们希望给每个问题都找到一个合适的回答者,目前知乎上的邀请回答,90%都是来自于我们的算法推荐。剩下的10%是用户自己的搜索,还有大家能搜到的每周精选,我们这个也做了个性化。这个个性化,目前邮件我们打开率已经达到了30%,点击率是14%,这个是相对于所有的edm的邮件来说是很高的。另外是相关问题,相关问题我这里特别要讲一下,之前我们用的相关问题做法是直觉上基于文本的一些分析,后来我们发现这个是有限的,随着知乎用户量不断的增大,我们换了一个思路,我们不考虑文本本身的问题,我们用协同,看用户相似的行为,效果非常好。通过这件事,其实能看得出来,大数据基础上简单的算法,其实比小数据基础上的一些复杂的算法会更有效。

最后给大家分享一个其他维度的数据,就是知乎团队的数据,目前知乎团队的男女比例是2比1,总重一万一千公斤,总体来说还是一个比较年轻的团队,平均年龄接近27岁,还有一表就是男生拥有清晰腹肌的比例接近20%,最后,知乎在做一些有趣的事情,不管你对于我们的回答感兴趣,还是对于我们有腹肌的团队感兴趣,都欢迎联系我们,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2015-09-02 10:19:00
大数据资讯 美图网杨尚刚:数据库运维和性能优化之路
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,数据库优化是一个很大的问题,迄今为止一直困扰着所有的数据库管理员和程序员 <详情>
2015-09-02 10:13:56
大数据资讯 携程数据架构建设和平台服务化的实践
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,会上携程网的架构专家杨晓青,给我们带来携程数据架构建设和平台服务化的实践 <详情>
2015-09-02 09:51:00
大数据资讯 一号店陈敏敏:电商场景下的千人千面和实时意图实践
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,会上一号店精准化部门架构负责人陈敏敏以《电商场景下的千人千面和实时意图实 <详情>
2015-09-02 09:38:00
大数据资讯 贝贝网:特卖场景下的大数据平台和机器学习实践
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,如何快速的建设技术体系,发挥技术的价值。会上贝贝网大数据负责人周黄玲以《 <详情>
2015-09-02 09:32:35
大数据资讯 乌云章华鹏:成长型互联网的数据安全
8月29日-30日在上海国际时尚中心举行的D-Future数据时代峰会是七牛为大家带来的一场数据盛筵,会上乌云章华鹏以《成长型互联网的数据安全》为题给大家带来了精彩的演讲。 <详情>