AI能识别图像但如何识别照片标题含义？_大数据资讯

2012年，人工智能研究人员发现，通过给神经网络提供数百万张名为ImageNet的图像图像，计算机识别图像的能力有了很大的提高。它为计算机视觉带来了一个激动人心的阶段，因为很明显，使用ImageNet训练的模型可以帮助解决各种图像识别问题。六年后，这项技术也为自动驾驶汽车在城市街道和Facebook社交媒体上自动标记照片铺平了道路。

在人工智能研究的其他领域，比如理解语言，类似的模型已经被证明是难以捉摸的。但是最近快速的研究。人工智能、OpenAI和Allen人工智能研究所提出了一个潜在的突破，使用更强大的语言模型来帮助研究人员解决一系列尚未解决的问题。其中一款新车型的研究员塞巴斯蒂安·鲁德尔（Sebastian Ruder）称其为“ImageNet时刻”。

这些进步看起来是极具戏剧性的。到目前为止，广泛测试的模型被称为语言模型的嵌入，或者叫做ELMo。今年春天，艾伦研究所发布了这项技术，ELMo迅速推翻了之前的一系列挑战，比如阅读理解，人工智能回答了关于一段文字的问题，以及情绪分析。在一个进展趋向于增量的领域，ELMo的技术让识别效果提高了25%。今年6月，该公司在一次大型会议上获得了最佳论文奖。

加州大学伯克利分校的计算机科学教授丹克·莱恩（Dan Klein）是早期采用者之一。他和一名学生正在研究一个选区解析器，这是一个面包和黄油的工具，涉及到一个句子的语法结构。通过添加ELMo，克莱因突然拥有了世界上好的系统，最精确的是惊人的宽。他说：“如果几年前你问我是否有可能达到这么高的水平，我就不确定了。”

像ELMo这样的模型解决了一个有问题的语言学家的核心问题：缺乏标签的数据。为了训练神经网络做出决策，许多语言问题都需要手工标记的数据。但是，生产这些数据需要时间和金钱，甚至很多数据都无法捕捉到我们说话和写作的不可预测的方式。对于除英语之外的其他语言，研究人员通常没有足够的标记数据来完成基本的任务。

“我们永远无法获得足够的标签数据，”艾伦研究所的研究科学家马修·彼得斯说，他领导了ELMo团队。“我们真的需要开发出一种模型，这些模型可以处理混乱的、没有标签的数据，并尽可能多地从中学习。”

幸运的是，多亏了互联网，研究人员从维基百科、书籍和社交媒体等来源收集了大量杂乱的数据。我们的策略是将这些单词输入到一个神经网络中，并允许它自己识别模式，即所谓的“无监督”方法。人们希望这些模式能够捕捉到语言的一些一般方面，一种对词语的理解，或者是语法的基本轮廓。就像使用ImageNet训练的模型一样，这样的语言模型可以被精确地调整以掌握更具体的任务，比如总结一篇科学文章，将电子邮件归类为垃圾邮件，或者甚至为一个短篇故事生成一个令人满意的结尾。

这种基本的直觉并不新鲜。近年来，研究人员使用一种叫做“单词嵌入”的技术，深入研究了未标记的数据，该技术根据它们在大量文本中出现的方式，将单词之间的关系映射到一起。这些新模型的目的是要深入研究，获取从文字到高级语言概念的信息。Ruder曾写过关于这些更深层次的模型对各种语言问题有用的可能性，他希望这些模型能成为一个简单的词嵌入的替代品。

例如，ELMo通过整合更多的上下文，在句子的范围内，而不是单词来观察语言，从而改进了单词的嵌入。这种额外的上下文使模型能够很好地解析“五月”和“May”这个动词之间的区别，但也意味着它学习了语法。ELMo通过获得对单词的子单元的理解，如前缀和后缀，获得了额外的提升。正如彼得斯的团队所做的那样，给神经网络提供10亿个单词，而这种方法是非常有效的。

目前还不清楚这个模型在分析所有这些词的过程中到底学到了什么。由于深层神经网络的工作方式不透明，这是一个很难回答的问题。研究人员对图像识别系统为什么工作得如此之好仍然有一种模糊的理解。在10月份的一次会议上，彼得斯采取了一种经验主义的方法，在各种软件设计和不同的语言任务中试验了ELMo。“我们发现这些模型学习语言的基本属性，”彼得斯说。但他警告说，其他研究人员将需要测试ELMo来确定模型在不同任务之间的强大程度，以及它可能包含的隐藏的惊喜。

一种风险是：对用于训练它们的数据进行编码偏差，因此医生被贴上男性的标签，护士作为女性，例如，就像之前所做的那样。克莱因说，虽然利用ELMo和其他模型产生的最初结果令人兴奋，但目前还不清楚这些结果能在多大程度上推动，也许是通过使用更多的数据来训练模型，或者通过增加约束来迫使神经网络更有效地学习。从长远来看，像我们这样阅读和交谈的人工智能可能需要一种全新的方法。

相关阅读：

谷歌人工智能公司去年税前亏损近3亿英镑，员工成本增长91%

今天，我们敢不敢把钱都交给AI？

AI像互联网一样，变革刚刚开始