四位顶级AI大牛纵论：深度学习和大数据结合的红利还能持续多_大数据资讯

这轮 AI 热潮的很大一个特点就是底层技术方面在打通，虽然说过去对通用人工智能大家曾经有过很高的期望，但一直没有落地。这次，深度学习给大家带来了很多机会，使得我们在底层技术方面有了越来越多的共性。然而深度学习并不是万能的，那么它的局限性在哪里？当遇到天花板时又该如何呢？

4月8日，在 ADL 第78期“深度学习：从算法到应用”的 Panel 环节，四位顶级 AI 学术大牛同台纵论驱动这一轮 AI 浪潮的底层技术，主题为“深度学习和大数据结合的红利还能持续多久”。

从左到右分别是：山世光、颜水成、李航、俞凯

四位分别是：

中科院计算所研究员、博导，中科视拓创始人、董事长兼 CTO 山世光

360副总裁、首席科学家颜水成

华为诺亚方舟实验室主任李航

上海交通大学研究院、思必驰创始人兼首席科学家俞凯

于 2017 年 4 月 7-9 日举办的中国计算机学会学科前沿讲习班（CCF Advanced Disciplines Lectures，简称 ADL）第 78 期，是由 CCF 和 KDD China 联合主办的高端学术及技术系列性品牌活动。

底层技术在打通，声、图、文领域相互借鉴

山世光：今天的三位大咖里，俞凯老师做语音识别，颜水成老师主攻视觉方向，而李航老师则在自然语言的理解处理领域非常资深，而且在更加广泛的人工智能上问题上也有研究，包含了声、图、文三个领域。我们今天讨论的题目就是“深度学习和大数据的红利在 AI 领域还能持续多久”，既然不同研究领域的人都坐到一起了，那我们就先讲讲这个大家互相跨界的情况。为什么这么说呢？因为我个人觉得这一轮AI热潮很大的一个特点就是底层技术方面在打通。虽然过去我们对通用的人工智能曾经有过很高的期望，但是实际上一直没有落地，但是如今深度学习给大家带来了很多的机会，而且底层的技术有了越来越多的共性，比如说卷积神经网络不仅在语音里面有用，在自然语言处理里面也有应用，所以我想请三位从这个视角谈一下，这一轮AI在通用技术方面有什么样的进展？

俞凯：稍微纠正一下，大家不要以为我是做语音识别的，我一定要说这句话，为什么？我所做的事情其实是口语对话系统，包括语音识别、语音合成等大家可以想得到的东西。更重要的是，我做的是对话，或者说是以交互为主要方式的人机口语对话系统。

对话实际上是认知控制，你可以认为我做的是以口语作为主要通道的感知加上认知，在这一点上我和李航老师是有重叠的，都是交互的自然语言处理。我为什么会提这个？因为声、图、文，如果从这个角度分的话，实际上都可以看是成感知层面的东西，但是它后面所对接的都是理解、交互的控制、人的决策和推理，这些部分是在声图文领域的从业者或多或少都会涉及到的，无论是颜水成老师还是李航老师。所以我想把它分成两层，从感知上看我们做的不一样的，但是后面的东西，大家做的很多都是类似的，比如大家会做到理解这一层，而我还会做到交互这一层。

关于这一轮的AI潮，我说一下自己的感受。我先抛一个观点，凡是在机器学习范式上一样的东西，声图文全都可以用，而且任何一个机器学习方法在这三样里面都可以用。什么叫范式？比如说分类问题，CNN之所以在语音识别里用的多，很重要的一点就是它能够处理高度非线性的映射，有非常好的分类能力。只要是面对这样的问题，就一定可用，所以我们现在也很关注图像方面的东西。

（山世光：这个我可能会有不同意的观点，我个人觉得更多的是学Feature。）

只要是能够归结为范式性的东西，第一是分类，第二是回归，这是最典型的两类事，第三是序列标注。只要能归属这三类的，几乎都可以通用，只是用的方法不一样。

李航：你刚才提到深度学习和大数据的结合红利，以及人工智能在技术层面上的打通，未来在应用层面上也会有很多的机会。

现在在UC Berkeley有一种研究，就是给机器人看一段“人开门”的视频，机器人在看完视频之后，可以学会自己用手去开门。以前这种运动和视频的理解是完全不同的领域。大家自然可以想到相关的，比如我跟你说一段话，这个机器会不会理解，能做什么事情，这种可能性在未来应该是有的。在深度学习、大数据这些技术的延长线上，假设有很多的数据，以及很强的计算能力，这种跨模态、跨领域的应用，应该是未来发展的一个增长点。

颜水成：大部分人对于通用智能的理解，目前还停留在概念阶段。可能大家主要想的是通用人工智能是什么样的，但是对于怎么样让机器实现或者产生通用人工智能，其实讨论的不是特别多。总的来说通用人工智能暂时是遥不可及的事情。

山世光：我把刚才这个问题换一个问法。比如说过去做人脸职别，我们可能连计算机识别领域的其他的子问题怎么做都不关心。但是现在不一样，现在要做人脸识别，只看人脸识别的论文肯定是不行了，还要看其他类似领域或者更通用的论文。从这个声图文这三个大的领域来说，它们之间的相互借鉴和技术层面的交叉，我觉得已经越来越多了。像CNN是从图像领域里面起来的，1989年就开始在做了。不知道俞凯老师是不是可以介绍一下，在语音方面的应用和图像方面的应用会有什么样的差别？

颜水成：根据我的观察，在声图文领域里，声音的问题相对来说比较少一些，比如像语音识别、TTS、或者声纹识别，而图像领域的问题太多了，而且落地的方式比语音多很多。这也许是为什么计算机视觉领域的从业者比语音识别更多。

山世光：俞凯老师同意这个观点吗？

俞凯：我觉得颜水成老师是一语中的，但这个观点我肯定是不同意的（指声音领域的问题相对较少的观点），其实是语音的人看起来借鉴图像的人比较多。

颜水成：但是深度学习在语音上是最早成功的。

俞凯：实际上不只是深度学习，真正图像的人看语音的论文相对来说比较少的，这跟整个领域的覆盖有关，所以我觉得刚才是一语中的，主要就是对问题的挖掘，这跟整个的历史发展是相关的，这是事实。但是倒过来讲，我是不太同意的，原因很简单，语音放在那，它就是一个模态，里面涉及到环节非常多，所以就会出现一个现象，真正搞语音的人出来创业的比较少，特别难做，为什么呢？因为你必须什么都懂，包括那些学术界还没弄出来的，但是你必须弄出来，才能最终变成一个系统。

颜水成：所以它是一个闭环的，包含麦克风阵列、降噪、语音识别等一系列问题。

俞凯：语音大的特点是什么呢？它不像图象，任何一个子问题马上都能看得见，你必须得绕一个圈，要么回答你了，要么看到识别的结果才可以。它的链条是非常长的，从刚才说到的硬件、软件、信号、特征、模型、再到后处理，这一系列完了之后才能看到一个结果，很难知道哪一块做的好或者做的不好，因此对后面的结果有重大的影响。如果你从中单独拎出去一块，想要直接评估它的指标并不是那么容易，所以这个是语音发展的一个特点。

我为什么把它当做特点呢？因为它既是好处也是坏处。坏处就是说，对于整个领域的问题，大家的认识不够大，我也在联合一些语音圈的同仁，把一些问题明确的提出来。好处是什么呢？就像卖鞋一样，如果各位去卖鞋，你是会去都有鞋穿的地方去卖，还是去一个没有鞋穿的地方去卖？两个各有好处和坏处，如果都不穿鞋，你就没市场了。如果都穿了鞋，你怎么卖？市场饱和了。所以从语音的角度讲，我的感觉是，在研究问题的提出上可能是under-developed，但是在问题的解决上跟图像相比其实是over-developed。

我举一些例子，比如刚才提到的互相借鉴的问题，大家直接就谈到了深度学习，很多人看待语音的角度，“不就是分类的问题嘛”，反正有深度学习的人，有图像领域的人，有全世界的人，大家都能解决这个事。好，我们都来借鉴，大家的成果都可以用。但是我看这个事，不是从分类的角度去看，我可能要去改它的criteria，什么意思呢？比如说，我们现在要做语音识别，我是给一定的声音，然后识别出文字，这是一个criterion，我训练的时候，在传统的语音识别模型里面，它是一个隐马尔可夫模型。我要训练的就是一个声学模型，如果我换一个特别难的criterion，就会使我的测试和训练是匹配的，就不会存在很直接的过训练的问题，因为过训练不单单是这个问题，还有一个准则不匹配的问题。

所以我们很多时候会关注这样一类，这些角度是不一样的，实际上是在范式上有所不同。所以今天提到的大数据和深度学习这块，我的第二个观点是什么呢？我个人认为，从具体的深度学习方法中跳出来，其实在深度学习的发展历史中，它会经历范式的变化，在第一个十年，大概是06年到16年，实际上第一个八年吧，我认为深度学习和大数据的结合在传统机器学习范式上几乎达到饱和，后面还可以再研究，但是它的边际效益降低了。

什么叫传统？比如说分类问题，比如说回归问题，它们的范式都有一个特点，我把这个特点称为开环学习。就是说你有一个模型，我有一个数据进来，你要优化一个准则，然后你出去，就这么简单，你只需要去想这个模型怎么变。但是从2013、2014年开始，出现了另外一个方向，这个方向可能跟大数据在一定程度上有矛盾，因为前面的开环学习，必须要有足够多的大数据，而且什么叫多？不是数量，一定指的是质量，要能够覆盖各种各样的可能性，完了之后你去学它，主要依靠大数据，以及模型强大的非线性运算的能力。到了后面出现了一个问题是，“我没有数据怎么办”，或者“我数据不均衡怎么办”。于是我们有了强化学习（reinforcement learning），生成对抗网络（GANs），还有微软的对偶学习（dual learning）。这些学习都有一个特点，可以归为一类，叫闭环学习，什么意思？它的数据也好，它的准则也好，它都不是一个开环的，都要有feedback signal，这个feddback signal往往是从不可预计的外部环境来的。

在你们做了前面所有的学习的时候，比如监督学习（supervised learning），它的系统是你预先设计好的，所以你必须收集数据，必须预先设置好signal，但是到了第二个阶段，这些signal是没有设定好的，它是自己出来的。比如说强化学习，它是和环境交互，比如说生成式对抗网络和对偶学习，它是和自己交互。这个红利能持续多久，取决于这个范式的变化，这是我抛的第二个观点。

山世光：其实我觉得视觉和语音领域，还是借鉴很多来自于自然语言理解领域的一些技术方法，比如说上一代的一些模型，已经在视觉领域里面用了好多年，在深度学习出来之前，基本上是这一套。那么除了这个之外的话，据您（李航老师）的了解，还有什么样的技术可能是在原理或者历史上，也借鉴了自然语言理解的技术？或者反过来说，自然语言的理解领域的同行们，他们会不会也关注语音或者视觉这些领域的进展？

李航：刚才你说那个现象，以前可能在自然语言和其他的人工智能领域之间也是这样，大家不会关注视觉和语音方面的事情。现在这个界限慢慢越来越模糊了，大家会互相借鉴，这个现象可能是历史上没有发生过的。然后你们刚刚说的这个声图文，其实“文”里面有一个和声、图本质上不一样的地方，它有这个符号（symbol），它的本质的特点就是在语音识别以后，转换成了符号。在语言表达的时候，我们认为我们能够理解一些概念，传达一些概念的时候，其实是有对应的符号的，这个就是跟语音和图像不太一样的地方。

说到深度学习，刚才俞凯老师说的我也挺同意的，2014年左右，有一个顶峰过去了，下一波从我们自然语言处理的角度来看的话，怎么样能够把深度学习的技术neural processing和symbol processing结合起来，是自然语言未来必然要去解决的问题。这里面有很多挑战，首先就是目前还不清楚人的大脑里面这种符号到底对应的是什么东西，怎么样能够像做CNN一样扩展现在的深度模型也不是很清楚。符号其实是挺硬的东西，而深度学习、神经网络是很软的东西，我们处理人的语言，包括对话的理解，从文本里面获取知识，理解文本的内容，这些应用都是需要这种软、硬处理的结合。我认为自然语言处理和深度学习未来发展的重要关键就是“怎样做neural symbolic processing”，这块是可能跟其他两类不太一样。

声、图、文怎样落地？

山世光：我最近其实特别羡慕做语音的，为什么这么说呢？因为语音这个领域，它处理的结果直接变成了符号，但是视觉这块，我们自己说一图胜千言，好象是说一张图可以有很多很多的符号出来，但是它其实和非常精确的命令，比如说我们去控制一个东西，和语音以及语言是直接相关的，从这点来讲的话，语音就有非常丰富的内容，可以很精确的去表达，这也是为什么说语音的应用比视觉更早了一步。特别是语音识别，跟自然语言理解的连接更加直接一点，而视觉这块就稍微弱了一点，但是最近两年有一个专门话题是vision和language（视觉和语言），大概是从2015年才开始的，之前也有人做，但是做的很烂。2015年之后看起来好像有一些声称通过了图灵测试，但是我觉得还是有点弱。从这点来讲的话，比如说做APP，我自己去创业的时候，别人都会说视觉能不能做一个单独的APP给用户用，而不是说作为一个锦上添花的东西嵌入到一个已有的系统里面去，是不是视觉会有这种缺陷？

颜水成：现在还是有不少这种纯视觉的APP的，比如美图秀秀、FaceU，这些就是典型的视觉。我个人觉得视觉这个领域的话，因为它经常可以有不同的创新，比如说今年非常典型的热点就是短视频的生产和聚合，各大创业公司（以今日头条为代表），以及传统的IT公司（比如360、百度、腾讯），都在推动短视频，这些东西跟传统的纯粹图像分析不一样。短视频兴起后，你的计算模型的efficiency，推荐算法等，都会跟以前完全不一样。比如图文的时候，可以用surrounding text做一些事情，那么短视频出现之后的话，可能就没有什么太多的caption（字幕）或者title（标题）的东西，这个时候主要依赖的是视觉的东西。无论是学术界工业界，其实对短视频的分析的投入和研发的力度是加强了的。虽然声音还在里面，但是可能对于文本的依赖性变弱了。从视觉维度来说的话，深度学习和大数据结合红利又一波又要来了，而不是到了瓶颈期。

山世光：就是视频的结构化、符号化和后端的搜索、应用的连接。

李航：这是个挺好的例子，其实刚才我们提到的语音，俞凯老师做的东西跟语言相关，只不过是从语音对话的角度去看这个东西，其实语音和语言比较容易自然的结合在一起，现在已经变成一个相对比较大的领域。我对未来的预测是，真正做语音识别的人会越来越少，而做语音对话的人会越来越多，这是一个整体的大的领域，而语音识别是其中一部分。

颜水成：对于语音对话这块，我个人的观点有点不一样，对话非常依赖于语料，这样的话，只有两类公司比较适合做这个事情。一类的话就是有search engine的公司，还有一类就是以腾讯、微软为代表的，有instant message产品的公司，比如微信、Skype。这些公司有天然的优势。

李航：我们俩说的其实不矛盾，这个领域有这样的应用，那么自然就需要将语音、语言的处理技术融合起来。相对来说，传统的语音识别和语言处理的人会越来越少，而在更大的应用背景下，更大的技术范围内，人会越来越多，这是我的预测。

俞凯：其实是这样，对话也分很多种类，刚才所说的open domain（开放领域），其实只是其中的一小类，而且是离商业化最远的一类。

颜水成：但是老百姓最期待的可能是这个玩意。

俞凯：其实不是，从投资的角度、以及技术的角度来讲的话，最集中的就是垂直领域的任务性对话，这个是一定的。

颜水成：对，这是落地性非常好的，但是我们看到的科幻片，或者老百姓他不能区分什么是task，什么是open domain。他们想的是，可能会有一个新的机器人出现，它可以安慰我，给我提供各种各样的信息，但是我们现在真正能够提供的，还是像Alexa Skills这样的东西。

俞凯：从这个角度来讲，其实那些比较open的语料，对于研究来说是有一定价值的，对于未来畅想也很有意思，但是从实际落地和真正的研究语义区分角度来讲，其实大公司并没有优势，原因非常简单，就是在机器学习的范式上，它不再是一个基于离线语料的学习，尤其是对话决策这一类，机器学习是需要在线和环境交互，才能真正去学的，而这样一类事情，全世界都才开始做。所以我觉得，细分下来的话，在对话的领域里面，至少有聊天、问答、任务性对话三个比较难的课题。我把open domain看成是特殊的聊天。

这三种用的技术都不一样，而它的商业化模式区别也比较大。所以我会有一个感觉，可能细分能让大家把这件事看的更具体一点。回答刚才山世光老师提到的关于图像商业化这个问题，我也再说一个观点：不解决痛点，只解决痒点。什么意思呢？就是我一天不上微信，我简直就不行，我昨天两点钟到了宾馆，我睡觉之前一定要看微信，因为在飞机上没法看，那个是痛点，真的很痛，我如果忘了这个，比如说李老师给我发了微信，我如果不知道，这后面就麻烦了，但是如果我不打开那个对话APP，这是没事的，所以这是痒点，这一点特别关键，它到底是疼的还是痒的。而从视觉的角度上讲，其实我的感觉是有很多痛点的，而且比以前还痛，这就是为什么，虽然现在语音的发展潜力非常大，但是从现实的情况上来看，整体上视觉公司估值已经比语音这边高，而整个核心的应用是一个什么东西呢？安防。安防这件事情是非常清晰的应用。刚才提到的好几类，包括说这个APP的问题，第一要区分你做这个APP的性质是什么，到底是工具性，还是社交性的，如果连这个都不区分的话，你的方向就不清楚，你就不知道，技术在里面占多大比例，工具性的占的比例高一点，但是社交性的、游戏性的技术比例可能很低很低。而在安防领域，其实图像是完全dominant的。

颜水成：安防其实也有个问题，其实公司都是都希望自己的技术能直接与用户做交互，而做安防的话其实是默默的在后台弄这个东西，普通老百姓不一定知道这个东西的存在，这可能是它的一个缺点。其实我觉得做视觉的人，还是希望能让用户看见，就是做2C（to customer）东西。

俞凯：我个人感觉，如果是2C的话，也只有两种情况，一种情况就是你就是一个感知工具，这个感知工具是不可或缺的，比如输入法，这个在自然语言处理里面是完全不可或缺的东西。还有一个方向就是必须得是个系统，单独语音可能不行，单独图像可能也不行，它可能会以其中一个为主，但是必须是个系统。

颜水成：我觉得可能要等到AR眼镜所有的技术都成熟了，而且用户量比较大了，才能够让视觉成为dominant的东西。

山世光：会不会把希望寄托在了一件不可能发生的事情上？大家可以现场调研一下，有多少人愿意天天戴一个AR眼镜。

颜水成：请问现场有多少人体验过HoloLens？(现场观众举手)，看起来二十分之一都不到。我们现在在座的根本没有多少人知道AR当前的现状是怎样的，没有体验过AR眼镜目前处于什么水平。我第一次带HoloLens眼镜的时候，只是在实验室里面体验了十分钟，用起来特别麻烦，因为微软一定要把它的账号跟HoloLens绑起来，又不好输入，我又不熟，搞的非常痛苦。但是有一次我太太恰好去外边旅游，我一个人在家里，我就用了整整半天的时间，在家里把HoloLens设置好，把里面各种各样的功能体验了一遍，然后就觉得这个东西还不错，离我想象的科幻电影里的样子又近了一点，但是还是有问题，HoloLens太沉了，视野太窄，而且续航也不太给力。后来看到Lumus这个专门做光学镜片的公司，它的产品能够把信息从侧面投影出来，通过光波导这种形式把信号反射到你的眼睛里面，能把眼镜做的和真的眼镜大小差不多。这样的话，极有可能能做到一款和普通的眼镜大小差不多的AR眼镜。

此外还有一些人在做SLAM技术，以及一些配套的手势控制的技术。特别是当我看到Lumus的那个眼镜，加上一个叫Infinity公司的SLAM技术，合在一起的时候，你就会觉得这个眼镜可以做的很小，并不是遥不可及的，我觉得AR眼镜发展的脚步比我们想象的快了一些。所以大家有机会的话，应该去体验一下。

深度学习加大数据的模式会面临天花板吗？如何解决？

山世光：我们还是回到这个话题上来，我解读一下这个话题为什么这样去设置。其实这里面有两个问题。第一个问题是说深度学习加上大数据这样一个模式的，会不会出现天花板的情况？昨天余凯（平线机器人创始人兼 CEO，前百度研究院执行院长）的PPT里面正好有一张图片，横坐标是数据量，纵坐标是performance，那么这个曲线的走势是会逐渐趋于平缓呢？还是会一直往上走？

第二个问题就是天花板出现了之后怎么办，就是你有了大数据，但是达到了天花板，你还没有满足用户的需求，那你还有没有其他的技术。人很多时候并不是依靠大数据来学习，我们是不是在下一波里面会更重视这种不需要大量数据的学习算法。之前也有讨论，有多少人工智能，就有多少人工数据标注的工作，是不是可以避免这个问题？请三位从这两个角度解读一下。

俞凯：我把我刚才说的扩展一下，先倒着来说，就是第二个问题，我的一个基本观点就是闭环的将会成为未来的一个研究主流，甚至有可能是工业界的主流，它大的特点就是对于人工标注数据的需求大大降低，这个是我特别明确的感受。比如GAN，它是机器自己生成数据，只是这个生成方法是闭环的，所以使得它生成的数据特别好，要是强化学习的话，直接和环境进行交互，它们利用都不是一个一个正常的、离线的、大规模的人工预标注。因此从第二个问题的角度上讲，我会认为闭环学习是一个比较大的方向。另外一个事情就是，观看机器学习的整体发展进程，我特别同意李老师的观点，他说的是符号学习和深度学习，我的观点就是数据和知识双驱动，我觉得这个方向将会是未来特别特别重要的方向。

李航：关于第一个问题，其实大数据永远解决不了长尾问题，自然语言处理的这个倾向非常明显。比如说现在的输入法、语音识别，在有专有名词、术语、或者夹杂英语单词的时候，肯定识别不好，不管你灌多大的数据。因为你收集的语料越多，新词的量也在同时增加，永远会有长尾的词出现，那么怎么样去处理？至少现在用深度学习或者自然语言处理的方法，还不能很好的解决这个问题，其实语音识别也是一样的，还没有完全解决这个问题。但是人肯定不会有这个问题，一个是语言的使用能力，你可以认为是人类几百万年进化出来的能力，让你在听到一个陌生的单词的时候，可以利用你的语言能力做推理，做联想，做判断，来弥补这些问题。我们现在的深度学习，或者整个人工智能领域都没有这样的技术去弥补这样的事情。这块的话，明显说明大数据、深度学习不是万能的。我们可以在未来短期的时间里面，解决一些问题，比如刚才说到这个输入法的问题，我可以把它变成personalised（个性化），或者是context dependent（基于上下文）来处理，可能做的更好一些。模型上，我可以嫁接在sequence to sequence learning这种大的框架里面，我可以把一些事情做的很漂亮，也很有效。但是本质上，并不是像人一样处理长尾现象，因此大数据、深度学习肯定不是万能的。

山世光：其实之前俞凯老师讲到自动驾驶的时候，就有一个collide case，比如说车祸，它其实不是经常发生的，很难采集这样的数据，但是这个我们也有讨论，是不是可以合成这样的数据。但是如果能合成出来大量的这类数据，而且是很接近真实的，那也许就不需要深度学习了，因为你本来就知道这个事情怎么产生的。

颜水成：其实说到长尾问题，让我想起去年在上海纽约大学，Zhang Zheng老师组织了一个关于neural science vs. computer science的讨论。人是怎么解决长尾的问题呢？当时我们就觉得人脑里面有可能有两个模型，一个叫参数模型，一个叫非参模型。其实长尾这个东西，可能就是由几个instance存在那里。参数模型或者深度学习的模型有两个能力，一个是能分类，能做prediction，同时还有一个能力，就是能判断对这个样本（能）不能prediction，（如果不能，）那么就把这个样本拉出来，用非参方法一一比较一下。

人是怎么处理长尾问题的呢？我们当时有一个假设，其实也没有很多道理，就是听起来比较reasonable。你的学习过程中非参样本是逐渐增多的，比较多的时候就形成一个概念，参数模型就会增加一个节点。但是当你长久不看，就遗忘了，有些概念就消失了，有些样本就会退回到参数模型里面，这可能能够解释，为什么有些时候你会觉得有个东西可能认识，但是死活都想不起来，这个时候就意味着参数模型不能识别样本是么东西，但是可能在非参模型里有。在非参模型存的数据可能非常非常多，这样的话就不停地去搜，不断地想，想着想着就想出来了，有可能在非参数模型就把它匹配上了。

李航：其实我不太同意这个观点。人是肯定是有这部分的能力，这是模式识别的思维方式。比如你第一次听“他在微信里潜水”这句话，你可能要琢磨一下这是什么意思，你第一次听，你可能会想潜水有什么特性，做一些联想，然后大概猜出这个是什么意思，这是个长尾的事情，语言理解原理有部分是联想，也有一些推理，当然你得到的结论也不一定对，有可能误解了。对这块认知科学也没有说清楚，人的推理，或者自然的联想，或者比喻的能力（理解比喻和造比喻的能力），到底有什么不同？我个人理解，有一部分能力已经超脱了模式识别的能力。让现在的计算机架构做这样的事情的话，相当于需要做穷举的全集的近似度计算，当然也不完全是这么回事儿，但是人为什么能够很快地做这样的相似度计算，判断说这个事情是这么个事。

俞凯：我觉得刚刚颜水成老师说的这个角度我是比较同意的，他说的两种不同的方式去做，一个方式是计算的方式，另外一个方式是存储和寻址的方式。这两个方式的结合实际上是人脑的一个点，计算的方式需要存的东西比较少，但是需要在线去推理，寻址的话就相当于比较简单的映射。

山世光：我觉得李航老师说这个，它不仅仅是一个简单的存储，而是可以去联想，可以举一反三的。

俞凯：长尾的数据问题，其实还有另外的一件事情，目前学术界不是特别重视，但是工业界其实特别重视，未来很可能会推动大数据和深度学习的结合。由于传统问题很多被解决了，所以它会推动新问题的产生，这个新问题是什么呢？我举例子，就是刚才提到的performnce问题，这个指标，不是真实的产业界定的，是学术界在最开始定义这个问题的时候提出的，比如说我举这个例子——词错率（word error rate），但是这个指标现在看起来好像已经快达到饱和了，人们就会说，实际上99%和97%的识别率有差别吗？那么什么东西有差别呢？我们就要想，语义理解可能有差别，那么你怎么定义有效的语义理解？你定义出来以后，你的输入就不是文字的语义理解了，你现在说的是语音，现在识别的有错误，在这个错误的情况下，导致的理解是什么样，你就把它连成一个新问题，这个问题可能就会变成对于语音终极的理解的误差有多少，但是这个误差怎么定义现在没有一个共识。我觉得这会产生一系列新的问题，而这些问题会推动深度学习新的模式和新型态的大数据结构的发展。

怎样用一个具体的指标评价AI的整体进步？

山世光：我觉得这个非常好，我在计算所经常跟一些做系统的人打交道，他们就特别不理解我们这个领域，他们认为，“你们老是说今天有进步，明天有进步，到底这个AI领域的进步是怎么评价的？”他们的评价标准很清楚，有个benchmark，新机器造出来，把这个benchmark一跑，我现在是多少，原来是多少，很清楚，但是整个AI界他们找不到能够理解的，你去年是这个指标，明年是这么一个指标，怎么评价AI整个的发展？最后大家没办法，寄希望于图灵测试，但是图灵测试不能很好的度量进步。这样一个指标是不是我们这个领域值得思考的问题？

俞凯：我觉得指标会不断地变化。其实说白了，任何科学最关键的是先定义问题，然后才是怎么去解决它。科学的发展往往是问题导向的，我感觉现在就处在一个新问题出现的前夜，但是这种事在学术界其实很难被人承认的。根据我自己的经验，我曾经投过很多关于变一个criterion的论文，但是这种论文被接收的概率比我改一个算法被接收概率要低得多。

颜水成：其实图像跟语音、语义还有另外一个很明显的差别。图像是一个universal problem，无论中国还是美国做的其实是一模一样的，但是语音和语义还有一个language问题，即使外国做的很好，但是那个模型并不一定能够在中文上做到非常好的效果，这个可能还是有一些差别的。

山世光：再回到刚才的这个问题上，我想问一下俞凯老师，在语音识别的这个领域，你刚才提到词错率这个指标基本上要饱和了，这是说再增加更多的数据性能也没法上升了呢？还是说已经做的足够好了？

俞凯：我们这个概念就是说相对错误率的下降。在语音识别历史上，相对错误率下降30%属于历史上大的进步，之前还有几个技术也是这样，相对错误率下降30%，可问题是我现在的错误率只是10%，你相对下降30%这个概念，已经变成了7%，你再相对30%，变到了多少？你会发现实际的绝对值特别小。我说的饱和就是表面上看技术还是在不断地进步，但是给人的感觉就是，对于这个问题本身，它的边际效应已经特别低了。现在比较难的是处理抗噪、俩人同时说话等问题。因为这样的东西，它的错误率特别特别的高，那样的情况，它的研究价值就大于工业价值，否则很多事就让工业去做了。之前微软将Conversational Speech Recognition的词错率做到了5.9%，和人的错误率已经一样了。从某种意义上讲，在限定的条件下，这事已经算解决了，但是在非限定条件下或者非配合条件下，这个事情才刚刚开始。

无监督学习

山世光：回到“如何在没有大量的数据情况下怎么去做学习”的这个问题。之前我们也讨论，一个思路就是做强化学习，做交互相关的这种可能。另外一个就是说贝叶斯网络和深度学习的结合形成一套新的机制，也许可以在一定程度上解决这样的问题，大家是同意还是批判？

李航：贝叶斯网络那个不好评论。但是我觉得非监督学习一定要小心，其实非监督学习指的东西现在越来越不一样了，传统的非监督学习真的是一大堆数据，learning from the scratch，找到这个数据里的规律，没有任何指导。我们人其实无师自通能学到一些东西，听起来好像能做这个非监督学习，但是这个能力的本质是不一样的。人类进化这么长时间，我们学习的能力在DNA里面已经有了。我们生长的过程当中，学到了大量的知识，也就是说成年之前学到很多东西，在成年的时候，一般的人学任何一个东西，你也可能说小数据，或者无监督的学习，但是其实之前的那些知识、能力都会帮助你。这种意义上其实大家也在做，就是迁移学习，半监督学习，最近他们比较关注的meta learning（谷歌提出来的东西）。就是说我学各种各样的分类器，各种各样的知识，这些东西怎么样能有效的结合起来，帮助我只用小数据或者不用数据，就能把这些新的东西学好，这样学习的范式更接近人，比如Bayesian Program Learning这种新的想法，都是在朝这个方向走。要么人给的知识，要么机器自动学的各种各样的知识，如何把这些有效的利用起来，再去学新的知识，这块我觉得是很有意思的方向。

山世光：我觉得李航老师说的这个引到了一个非常重要的话题上来。我就观察我家小孩，我感觉他在七八岁之前，学每一个技能其实都挺困难的，比如你让他系个扣子的话（这个跟智能没有什么关系），他要学蛮久的，但是你会发现他不同层面、不同角度的能力，在逐渐积累一段时间之后，在有了自学的能力时候，智力的发育不是线性的，那时候就会突然爆发性的自己去学。这个对机器来说，它可能有视觉、听觉等各种各样的能力，但是没有把这些结合在一起，去诞生一个智力，这块如果有突破话真的会是一个大的突破。

俞凯：我的感觉其实还是反馈通道的问题。其实很多时候是因为扣子系不好无所谓，他不知道应该把扣子系好，或者说扣子系不好就没有批评他。就是他的学习能力强了，我感觉有一个很重要的问题，他无时无刻都有新的数据接触，这些数据是没有label的，但是有compact，所以他对compact感知形成了一种感知能力的时候，他有这个信号了，然后他就可以把整个的学习流程，加上好的结构，然后贯穿起来。小的时候是因为这个信号就很简单，打一下疼了，饿了就叫，这是非常简单的。当这个compact越来越丰富，而且当他越来越能理解这个compact以后，他的学习能力才能体现出来，我感觉这也是对外部认知反馈信号的能力。

李航：这个我同意。小脑最基本的能力都像是监督学习（supervised learning），而大脑和其他海马体还不太一样。小脑的话，比如小的时候学游泳，学骑自行车，通过大量的训练，后面有一定的能力积累之后，这些动作都是一样的，还包括走路。在这个环境里面，就像俞凯老师现在说的，你有一些反馈，然后你会根据reward去调整，以组合的方式去学习。

山世光：这好像也不不仅仅是小脑，刚开始学一加一等于二这个基础的时候也不那么容易，当然对于我们来说非常非常容易，但是他开始的时候其实不是那么容易，不过到了一定时间之后就会很快。

李航：反正也有相似的地方吧，我也同意，好像不太完全一样。这样形容比较好，我感觉学动作这样的东西，和学知识性的东西（数学、语言），仔细观察的话也不太一样。

现场Q&A

问：刚才俞凯老师提到的闭环学习，像生成式对抗网络这种，虽然说它不需要很多标注数据，但是还是需要很多数据的。还有之前提到的one shot learning，它之所以能够从一个样本学出来，是因为它需要很多经验知识。所以我觉得所谓的这些小数据它还是需要很多大数据来给它提供经验知识的，所以想听听四位老师的看法。

俞凯：我刚才在那个观点里提了两条，第一条是从开环学习到闭环学习，第二条就是从数据驱动到知识和数据双驱动，恰好就把这两条都说了。我觉得这里面有一个关键点，就是无标注的数据和有标注的数据是有本质区别的。因为无标注的数据你可以认为它的获取是没有cost的，就像一个人的成长一样，你只要在社会里面，在现实世界里面，你就会接收到这些数据，所以这件事可以认为是没有cost的。如果说可以使用比较无标注的数据，通过闭环的办法，使得无标注数据的内部结构可以被发现，这件事本身就是一个非常大的进步，你可以认为它是不需要数据的，我一般指的是不需要有标注的数据，我认为这个至少在现阶段是一个可以被认可的点。

第二个事情就是one shot learning问题。实际上就是像人学习一样，当我们说人能够学的很厉害，不单单意味着人这个个体有学习能力，还意味着你也上学。如果你不上学，没有知识的积累，也没有办法变的很厉害。所以当你说需要这些经验知识的时候，我觉得这个不能说需要大数据，那个东西不是一般意义上的数据，更多的是某种模型结构的积累，就是刚才前面提到的有监督的、非监督的，参数、非参数的，非参数那部分就有可能是寻址，他去寻你的memory里面的址，那个memory是人类的记忆，这种记忆是结构化的记忆。所以这个东西是经过人类多年的积累已经现存的东西，它不是一个需要重新获取的东西。我的观点就是会有这个范式的变化，但是这两个模式都是未来很重要的模式。

颜水成：人的学习并不是start from scratch，其实从父母的基因那你已经继承了很多有用的信息过来了，那个也是通过大数据积累起来的东西。至于one shot learning，其实人有一个能力就是，新的class（类别）出现之后，就可以很快对这个新的concept（概念）建立一个模型出来。早期的时候有人做了一些研究，就是说你假设有了一个一千类的模型，现在又有了一个新的类，但是我给你的数据就是三四张图片，那你怎么样可以把这个一千类模型adapt成一个一千零一类的模型。此前有人做过相关的研究，但是后来这块基本确实没有人来做了，但是我觉得这个方向其实还是有一定的学术价值的。

李航：关于人的基因里面语言学习的能力，有很多的研究，有一个很有名的例子，就是观察小孩如何学习英语动词的过去时态。研究发现，小孩在以开始的时候是基于实例来学的，如果你说“Daddy came home”，然后他就会说“Daddy came home”，也没有generalize，过了一段时间他发现这个动词的过去时都会加ED，小孩就会困惑，有一段时间既会说“Daddy came home”，又会说“Daddy comed home”，就会出错。再过一段时间，就真正学会了过去式有特殊的变化形式。他会准确的说“Daddy came home”，同时也知道别的动词是加“ed”。从这个例子可以看出来，人在语言学习的过程中，有generalization的能力，但是开始的时候就是基于instance，比如你说“came”，他就记住“came”，后来他就会尝试有保守的去做generalization，有时候还会做over-generalization，但是又会做简单的调整，最后能够正确的把这些区分的比较好。还有很多其他的例子，这说明人还是有先天的能力的，否则很难解释怎么那么快学到这些东西，但是这个现象还是非常复杂的。