中国IDC圈4月15日报道,当你下一次运行 Facebook 时,无论是网页版还是 App,你可以仔细想一下,个人页面刷新、家庭相册浏览等这些操作会需要多少计算量,然后再乘以十亿用户,而且每一天都如此。
这不仅是运营一家「财富500强」(第242位)的社交网络公司,也是在运营异常庞大的支撑各种服务的计算基础架构,包括处理器、存储器以及知道用户各种需求的软件。
Facebook 为全世界五分之一人口提供服务,而且去年年底,全球32亿人口中有超过一半的人成为了互联网用户。此时,这不是一个不理性的问题:地球上有足够多的人来驱动这样一张巨型网络吗?
回答是否定的,至少是负担不起的。这就是 Facebook 求助人工智能的原因。
五年前,Facebook 推出 Open Computer 硬件倡议,他们这么做的原因是为用户提供 News Feed 服务的成本完全就是产品销售成本,即便对于这样一个当时拥有7.4亿用户的网站。因此,打造公司自己的计算基础架构,让博文发布更快,成本更低,成为公司的基础需求。
Facebook 表示,公司已经从对 Open Compute 的投资中节省了超过20亿美元。但在互联网领域,五年就是一个时代,如今每个科技巨头都在设法征服另一个难题。虽然他们可以低成本的提供内容服务,但在数十亿博文中,要搞清楚推送哪类内容依然有很大挑战。因此,就像 Facebook 五年前通过 Open Compute 计划开始重新搭建硬件产业一样,最近,公司也创造了一个管理人工智能的内部平台,如此一来,就能精准推送你想看的内容。而且,公司也希望将这个「机器学习」平台规模化。(「机器学习」是一种人工智能类型,能让计算机在没有预编程的前提下学习如何运行。)
「我们正试着打造超过 15 亿个人工智能代理(AI agents)--为每个使用 Facebook 或公司其他产品的每一个人服务。」新近成立的机器学习应用组负责人 Joaquin Candela 说,「那我们应该怎么做到呢?」
Candela 说,你要从以前的胜利中汲取灵感。Facebook 的基础架构团队也是机器学习应用团队的灵感之源。
「我们倾向将诸如存储、网络设计以及计算视为理所当然的事情,」他说,「当视频小组做直播视频时,人们并没有意识到这件事的量级。这很愚蠢。而基础架构小组就是在那个地方传递魔力--将不可能变为可能。我们需要对人工智能做同样的事情。也需要将人工智能变成你们认为理所当然的工程结构中的一部分,如此完整的一部分。」
去年九月,Facebook 成立了机器学习应用团队(Applied Machine Learning team)。团队负责运行一个覆盖全公司的机器学习内部平台,叫做 FBLearner Flow ,这个平台就相当于人工智能领域的 Open Computer ,不过大的区别在于:它并不会依托于开源硬件来提供给世界。公司说,如果没有 Facebook 手头数据,这个平台本质上没啥用。
FBLearner Flow 结合了几个机器学习模型并用于处理几十亿数据点,这些数据点来自网站15亿用户的活动,并能对数千件事情进行预测:图片中有哪位用户,哪些可能是垃圾信息。FBLearner Flow 模型创造的算法有助于界定什么样的内容出现在你的动态消息中,以及你会看到什么样的广告。
基于以上内容,我们会很容易得出结论:Facebook 使用人工智能会让公司13,000雇员中的某些人失去工作。「但现实并没有什么变化,」公司 CTO Mike Schroepfer 说。人工智能恰恰是在帮助公司提升工程师的能力。他说,「我们能做之前无法做到的事情。」
Applied Machine Learning 主任 Joaquin Qui?onero Candela
在 Schroepfer 看来,Facebook 经常能够发现那些好机会,即便自己还没有能力去征服--至少在人类力量的范围内还无法解决。看一下公司最近发起的一项新功能,为视觉受损人提供图片说明(以让其「看到」图片)。如果公司雇人手动为上传到网络的每张图片内容做标记,成本会非常高,也无法规模化,当然也不可能期待用户自己来做这个事情。但不管对于视觉受损人士,还是对于 Facebook,这些信息都是有用的。现在通过使用 FBLearner Flow 平台上的计算机视觉模型,一台计算机就能自动梳理数十亿张图片并给照片加上标签,并实现了较为理想的准确率。
「它正在让新应用成为可能,特别是规模化解决问题。」Schroepfer 说。Facebook 使用这种基于机器学习的办法来翻译 News Feed 博文;在用户看到之前监测到网站不合适的内容;在打造 M 过程中,公司通过人与机器的结合去打造一个私人助理。
Facebook 并非唯一一家实验人工智能的大型互联网公司。谷歌、亚马逊、 微软和 百度都在相关技术上注入重资。随着我们将更多的日常生活托付给数字王国,这一点将变得越来越明显:那些建造了我们所依赖(日常信息、社交和多媒体等)的网站的那些人已经无法胜任后续工作了,让机器登场 。
自上个月起,大约有750 名Facebook 工程师和 40 个不同产品团队正在使用 FBLearner Flow 平台。公司希望截至到六月底,会有 1000 名工程师使用这个平台。Facebook 最终想要建立一个对非工程师人员来说也非常容易使用的机器学习工具,尽管距离这一目标还很遥远。
机器学习迅速变成最火的人工智能形式,也是人工智能的--随着新计算技术出现,近期,这个有着几十年历史的科幻电影的标配历经了一次重生--组成部件。随着计算机系统越来越大、越来越复杂,很明显的是:它已不足以支撑计算机如何诠释数据的硬编规则(hard-code rules)。依据圣经的劝告去教一个人钓鱼--或者在这种情况下,教计算机如何诠释自己的数据,要更加容易得多。
计算机学家使用各样的工具教计算机学习。如今绝大多数努力集中在「监督学习」上,研究人员以现有的数据集为基础建立一个机器学习算法,用来训练计算机。比如,教计算机识别面部,你好用不同面部数据库训练它,计算机就能学会如何分辨不同的人脸。机器学习的圣杯是「无监督学习」,计算机只得到数据类,自己建立模型对数据进行分类。换言之,不同于直接给计算机学习的人脸图像,计算机得到图像后要把相似数据聚类,从中推导出问题图片上的图像是否是人脸。
无监督学习就是人类学习的方式,而且 Facebook 已经直言不讳得表明,自己努力教授计算机通识。大部分工作都由Facebook 人工智能研究室(Facebook Artificial Intelligence Research,FAIR)团进行。FAIR成立于 2013 年底,是一个进行基础研究的地方。它与应用机器学习团队相对独立存在,尽管这里进行的一些研究在 FBLearner Flow 上找到了用武之地。
Facebook 的 CTO Mike Schroepfer
就像 Candela 解释的那样,你可以把 AML 团队视为 FAIR 的商业化部门。这里的深度科学慢慢渗入到服务于十忆用户的产品中。除了它做不到的时候。Schroepfer 说,在这里,并不是所有的研究都要将深度科学运用到某个产品中,尽管他警告说,FAIR(有 50 位研究人员)和 AML (雇佣了 100 位研究人员)已经自己支付了费用。
比如,在自家翻译模型的支持下,Facebook 现在每天使用机器学习翻译20亿条 News Feed 条目,不再依赖微软必应的翻译服务。Facebook 也使用 AML 团队的平台,在卫星图像上应用计算机视觉模型绘制人口密度地图,最终确定发展中国家的哪些地方需要宽带服务。而且在视频添加说明的尝试已被证明是越来越受欢迎的,因为分享和点赞增加了 15%,浏览时间增加了 40%。
这些是 Facebook AML 团队最新成果中的一部分,但是,他们已经在建立机器学习算法上花了十年时间:2016 年,他们第一次尝试在 News Feed 上使用深度学习。
「News Feed 是我们第一次为用户尝试这项艰难的工作」Schroepfer 说。这是初步的尝试,Schroepfer 表示,但即使这样,Facebook 雇佣再多的编辑人员也不能满足百万用户所需的 News Feeds。
从此,这家公司对机器学习的使用日趋先进。但是,直到去年六月份Facebook 图片分享服务 Moment 发布,公司才真正开始公开讨论对机器学习的深入研究如何正在影响新产品。Moments 使用了 Facebook 图像识别模型,能让用户创造面向选定组群开放的私人相册,比如,只对照片中的人公开。
产品发布时,Facebook 说它的图像识别模型识别人脸准确率高达 98%,即使不是正对相机的面部图像。它还表示,模型能在 5 秒内,从 8 亿图片中识别出某张图片中的人。
人们 对此感到害怕。本来是想以一种半隐私的方式轻松分享图片,结果惹恼了许多用户。这一功能迫使用户面对这样一个不安的事实:Facebook 能从 十亿多的用户中识别出他们,而且速度还快的不正常。Facebook 甚至不能在欧洲发布这一功能,因为触及有关隐私和面部识别技术的相关法规。
对隐私的担心显露出机器学习利他主义的阴暗一面。数据驱动下的功能,让 Facebook 的产品用起来更方便。但是,它们也让公司得以维系用户对平台的持续使用,这也反过来让其卖出更多、更有效的广告。
为此 Facebook 每天要进行数十万亿次的查询,以便能每秒做出六百万个预测。Facebook 用数十亿个数据点来训练支撑其 News Feed 的算法。这家公司每十五分钟到两小时就更新一次它的学习模型,以便能对当下事件作出快速反应。
当一台电脑能从语法上分析那么多的信息并作出判断时,这也是令人不安地提醒我们,我们数字生活的每个方面都正在被它以向广告商、研究人员甚至政府展示我们私下想法和行动的方式分割、切片再切块。同样棘手的是,机器学习算法还有可能会犯错。
而且这些都还不能解释这一事实:许多人甚至还不知道,机器学习算法正在改变他们对产品的体验。一个人没有看到自己的News Feed 中的某个内容的原因或许在于算法把这个内容过滤了。2014 年,麻省理工学院的一项研究发现,62.5% 的研究参与者都没有意识到 Facebook 过滤了他们的 News Feed 。
「好的人工智能算法能泛化,他们能预测你想要什么,但它们从来都不是完美的,」Candela 说。这也是 Schroepfer 之所以相信 Facebook 距离「把一切都交给人工智能技术」还很遥远的理由之一。
「我认为,你仍要人处在决策环中,」Schroepfer 说。「我们正在为他人创造产品,而我很难相信机器能计算出其他人想要什么,哪怕是使用这些高级科技。」
Schroepfer 说,这一工作都是为了打造一个社交网络,能够更好地预期用户想要看到什么或体验。如果你这一天过得很糟糕,他希望 Facebook 能给你看一段诙谐的小猫视频。如果你有一星期都没和你母亲聊过天,他希望 Facebook 能识别出这一点并主动为你推送一些关于她的生活的信息更新。
「Facebook 当下的问题是,关于你想要什么,你告诉我们的东西还不够多。」Schroepfer 说。「我们在努力猜测你想要什么。问题的一部分是,我们不知道该问你什么,而当你告诉我们你想要什么的时候,我们也不确定对此该做些什么。因为我们的系统还没有真正在这方面安排好、优化好。」
应用机器学习( Applied Machine Learning)团队的建立为创建这样的系统提供了机会。同时,FAIR 团队也提供了机会让我们能建立关于「如何让机器去学习」的更好理解。
Facebook 做出了以这种方式在人工智能研究方面高歌猛进的决定,与竞争者们相比,它这么做有些不同寻常。
例如,微软旗下的研究院拥有一支庞大的人工智能研究队伍,但微软并没有把这方面的努力移交给一个商业化团队,再让这商业化团队把它转化成供内部使用的产品。相反,研究人员会直接与产品团队的人一起工作,建立使用深度学习的工具或新的服务。
据微软研究院院长 Peter Lee 说,在对外方面,微软正在试图建立一个为机器学习提供服务的平台,并通过它的云计算平台 Azure 把这些服务提供给客户。
不过,Lee 和 Facebook 的 Schroepfer 在这一点上是一致的:机器学习和人工智能正在使公司们能创建一些新的产品,这些产品在过去曾因太耗费时间或资源而无法实现。
从微软跳槽到 Facebook 的 Candela 说, 他有意要在 Facebook 努力创造出一个不一样的组织结构,因为他感到当他还在微软时,好想法无法在组织中快速散播。每一个新发明或新人工智能算法都被封闭在其所在的团队里。他说,Facebook 正在努力抵抗这种习气。
然而, 卡耐基梅隆大学计算机科学院院长 Andrew Moore 怀疑,像 FBLearner Flow 这样的人工智能平台真的能在一个组织中得到广泛应用。他说,大部分的机器学习模型都无法泛化。
「对机器学习来说,有一个陷阱,据我所知还没有哪家大公司未曾掉入这个陷阱。」他说。「看起来建立一个平台来支持机器学习算法似乎是很有用的,然而你会发现,每个使用机器学习的应用程序都需要调用不同的应用程序才能使用机器学习。因此,在机器学习平台的建造者和那些试图用平台来制造产品的客户之间常常存在着断裂。」
到现在为止,Facebook 仍然乐于付出这些努力,而且这些努力似乎也在它的新产品中带来了回报。随着更多的决策交给算法决定,这家公司有许多事情需要调整。不过,这个综合一切的项目已经改变了这家公司衡量其成功的方式。
例如,Facebook 发起的实名政策要求人们在其网站上使用真名,而这令跨性别者(他们可能并不认同他们出生时的名字)、美国原住民的后代(他们的名字不太容易用西方格式表示)和遭受侵犯虐待者(他们需要保留更多的隐私)感到不安。然而,当时 Facebook 的算法很难分析这些名字以适应这些需求。
Schroepfer 告诉我们,如今 Facebook 用与过去不同的方式来划分它的数据,从而确保规模较小的人群没有在取平均(averaging)的过程中被遗失。Schroepfer 说,Facebook 还组织了面向重点群体和直接用户反馈的对新产品的质性评估。「现在,当我们要发起什么项目,但事先却不理解怎样的改变才能更好的为人服务,这样的情况已经极少发生了。 」
这只是一条漫长道路的开端。毫无疑问人工智能技术正在使电脑变得更高效,并使我们能够在前所未见的超大尺度上建立各种系统。人工智能正在帮助 Facebook 扩展它的社交网络的范围和性能,同时并未影响它产生利润。如果幸运的话,这些技术也将帮助我们更好地学习如何与机器一起生活。