听说过“睡梦罗汉拳”么?

电影《武状元苏乞儿》中,周星驰在梦中得到老乞丐心法传授,学会了睡梦罗汉拳。

只是睡了一觉,醒来就武功天下第一。

边睡边学习,可能不少同学都YY过……真正做到能有几人?

没想到,现在AI已经学会了。

刚刚,两位人工智能界的大牛:Google Brain团队的David Ha(从高盛董事总经理任上转投AI研究),瑞士AI实验室的Jürgen Schmidhuber(被誉为LSTM之父),共同发布了最新的研究成果:World Models(世界模型)。

简而言之,他们教会了AI在梦里“修炼”。

AI智能体不仅仅能在它自己幻想出来的梦境中学习,还能把学到的技能用到实际应用中。

一众人工智能界同仁纷纷发来贺电。

还有人说他们俩搞的是现实版《盗梦空间》,并且P了一张电影海报图:把Ha和Schmidhuber头像换了上去……

这种神奇能力是怎么回事?

量子位结合两位大牛的论文,尝试解释一下。

在梦里开车

在梦境中学,在现实中用,可以说是高阶技能了,我们先看一个比较基础的:

在现实里学,到梦境中用。

David Ha和Schmidhuber让一个AI在真正的模拟环境中学会了开车,然后,把它放到了“梦境”里,我们来看看这个学习过程:

先在真实的模拟环境中学开车:

当然,上图是人类视角。在这个学习过程中,AI所看到的世界是这样的:

把训练好的AI智能体放到AI的梦境中,它还是一样在开车:

这个梦境是怎么来的?要讲清楚这个问题,量子位还得先简单介绍一下这项研究的方法。他们所构建的智能体分为三部分,观察周围世界的视觉模型、预测未来状态的记忆模型和负责行动的控制器。

负责做梦的主要力量,就是其中的记忆模型。他们所用的记忆模型是MDN-RNN,正这个神经网络,让Google Brain的SketchRNN,能预测出你还没画完的简笔画究竟是一只猫还是一朵花。

在开车过程中,记忆模型负责“幻想”出自己在开车的场景,根据当前状态生成出下一时间的概率分布,也就是环境的下一个状态,视觉模型负责将这个状态解码成图像。他们结合在一起生成的,就是我们开头所说的“世界模型”。

然后,模型中的控制器就可以在记忆模型生成出来的虚假环境中开车了。

在梦里学打Doom

做梦开车很简单,但两位大牛的研究显然不止于此。既然AI幻想出来的环境很接近真实,那理论上讲,他们这项研究的终极目的也是可以实现的:让AI做着梦学技能,再用到现实中。

这一次,他们用了VizDoom,一个专门供AI练习打Doom的平台。

“做梦”的主力,又是我们前面提到过的记忆模型。和赛车稍有不同的是,它现在不仅需要预测环境的下一状态,为了让这个虚拟环境尽量真实,同时还要预测AI智能体的下一状态是死是活。

这样,强化学习训练所需的信息就齐全了,梦境中的训练,GO!

梦境重现了真实环境中的必要元素,和真正的VizDoom有着一样的游戏逻辑、物理规则和(比较模糊的)3D图形,也和真实环境一样有会扔火球的怪物,AI智能体要学着躲避这些火球。

更cool的是,这个梦境可以增加一些不确定因素,比如说让火球飞得更没有规律。这样,梦中游戏就比真实环境更难。

在梦境中训练之后,AI就可以去真正的VizDoom中一试身手了:

AI在VizDoom中的表现相当不错,在连续100次测试中跑过了1100帧,比150帧的基准得分高出不少。

怎么做到的?

他们所用的方法,简单来说就是RNN和控制器的结合。

这项研究把智能体分为两类模型:大型的世界模型和小型的控制器模型,用这种方式来训练一个大型神经网络来解决强化学习问题。

具体来说,他们先训练一个大型的神经网络用无监督方式来学习智能体所在世界的模型,然后训练一个小型控制器使用这个世界模型来学习如何解决任务。

这样,控制器的训练算法只需要在很小的搜索空间中专注于信任度分配问题,而大型的世界模型又保障了整个智能体的能力和表达性。

这里的世界模型包括两部分,一个视觉模型(V),用来将观察到的高维信息编码成低维隐藏向量;一个是记忆RNN(M),用来借历史编码预测未来状态。控制器(C)借助V和M的表征来选择好的行动。

在我们上面讲到的开车、打Doom实验中,视觉模型V用了一个VAE,变分自编码器;记忆模型M用的是MDN-RNN,和谷歌大脑让你画简笔画的SketchRNN一样;控制器C是一个简单的单层线性模型。

把这三个模型组装在一起,就形成了这项研究中智能体从感知到决策的整个流程:

视觉模型V负责处理每个时间步上对环境的原始观察信息,然后将这些信息编码成隐藏向量zt,和记忆模型M在同一时间步上的隐藏状态ht串联起来,输入到控制器C,然后C输出行为向量at。

然后,M根据当前的zt和at,来更新自己的隐藏状态,生成下一步的ht+1。

这有什么用?

让AI会“做梦”,还能在“梦境”中学习,其实有很多实际用途。

比如说在教AI打游戏的时候,如果直接在实际环境里训练,就要浪费很多计算资源来处理每一帧图像中的游戏状态,或者计算那些和游戏并没有太大关系的物理规则。用这个“做梦”的方式,就可以在AI自己抽象并预测出来的环境中,不消耗那么多计算资源,一遍又一遍地训练它。

在这项研究中,他们还借助了神经科学的成果,主要感知神经元最初出于抑制状态,在接收到奖励之后才会释放,也就是说神经网络主要学习的是任务相关的特征。

将来,他们还打算给VAE加上非监督分割层,来提取更有用、可解释性更好的特征表示。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-04-13 17:16:00
国内资讯 进入负毛利时代 CDN行业如何破局?
自2016年工信部开启新一轮CDN牌照的发放,截止4月13日,共有114家企业获得工信部颁发的CDN牌照。2016年,众多资本涌入CDN市场;2017年,CDN价格战全面爆发,新旧势力的激烈 <详情>
2018-04-13 11:49:10
大数据资讯 关于人工智能的六大担忧
2017年,人工智能的发展又到达了一个高峰期,首席信息官、顾问和学者们纷纷表示,这项技术将使得从商业、IT运营到客户联系在内的任何事情实现自动化。然而,进入2018年,越 <详情>
2018-04-13 11:28:50
大数据资讯 我们可以教机器学习隐私吗?
机器学习需要使用大量数据来对模型进行训练,而我们一般都会将这些训练数据上传到亚马逊和Google等运营商所托管的机器学习云服务上,但这样将有可能把数据暴露给恶意攻击者 <详情>
2018-04-13 10:57:35
云资讯 BAT进入AI领域 上演一场三国争雄
而作为国内互联网企业三巨头的BAT,也纷纷默契地在AI领域发力。在AI领域,可以说,百度布局最早,阿里紧随其后,而腾讯最后入场。有人说百度是一骑绝尘的实用主义者,阿里 <详情>
2018-04-13 10:21:40
大数据资讯 无线网络遇到人工智能时会发生什么?
人工智能(AI)不是未来科技,它已经来到了我们身边。随着机器学习技术的创新继续推动基于人工智能的解决方案成为市场关注的焦点,投资者、技术分析师和未来有抱负的开发人员 <详情>
现场直播|ODCC数据中心工作组副组长 中国信通院云大所高级业务主管 朱晓云:《边缘数据中心产业发展简析及应用场景白皮书解读》
2018-10-17 15:54:36
现场直播|中国信通院云大所高级业务主管 王月:《数据中心企业名录及热力图介绍》
2018-10-17 15:50:56
高通发布60GHz Wi-Fi芯片:大增5G时代Wi-Fi体验!
2018-10-17 15:34:53
中国移动2017-2018年非骨架式带状光缆产品集采(第二批次):长飞、通鼎等中标
2018-10-17 15:27:20
现场直播|华为数据中心网络产品总监邓一鸥:华为AI Fabric,引领数据中心进入极速无损的高性能时代
2018-10-17 14:59:00
现场直播|DMTF区域副总裁 Michael Du:数据中心管理新标准 Redfish的介绍
2018-10-17 14:44:03
现场直播|中国移动研究院SDN项目经理王瑞雪:中国移动数据中心网络规划和实践
2018-10-17 14:33:29
现场直播|阿里巴巴高级专家刘水旺:阿里巴巴数据中心创新和实践
2018-10-17 14:10:00
现场直播|中国电信北研院主任王峰:人工智能服务器技术探讨
2018-10-17 14:06:00
小型企业数据中心机房如何建设?
2018-10-17 13:52:21
现场直播|阿里巴巴资深技术专家杨志华:MSDC网络进化论
2018-10-17 13:44:00
现场直播|华为2012实验室数据中心产业标准总监孙黎阳:《无损网络产业标准、测试验证及新技术孵化》
2018-10-17 13:20:55
现场直播|百度架构师 崔超文:AI推理加速引擎-Anakin
2018-10-17 13:19:00
现场直播|浪潮集团高密度服务器产品线总监王玮:ODCC标准下的新一代多节点高密度服务器
2018-10-17 13:17:00
互联网数据中心是否会进入云端?
2018-10-17 11:50:04