麻省理工学院的研究人员已经创建了一个新的人工智能程序,它不仅能够同时识别图像和语音中的物体,而且还能积极地将两者结合起来,从而更有效地理解和利用两者。这个人工智能程序可以分析带有音频标题的图像,然后把这两个资源放在一起,然后找出哪个对象对应于标题的哪些部分。
它在测试中通过突出显示图像区域和对象来演示这一点,而它们是由标题描述的。根据该项目的研究人员的说法,这比传统的语音识别或图像识别训练更自然、更有机。从本质上讲,人工智能正在像人类一样学习,这将使它更加灵活,从而在未来更有能力。
这个人工智能程序实际上是一个以前的模型的扩展,它能够将单词和短语与图像的主题集合相匹配,比如颜色和原型。该模型使用两个卷积神经网络,分别处理语音输入和图像输入,然后一个更高的层组合这些神经网络并构建关联。研究人员向模型展示了正确和不正确的关联,以帮助它学会识别或缺乏联系。
这个项目的意义是相当大的,而且是显而易见的。这一发现不仅可以在未来的模型中实现更快的语音识别和图像识别AI训练,还将为基于卷积神经网络的人工智能铺平道路,这种神经网络不仅在结构上模仿人类的大脑,而且在学习方法上也是如此。
理论上,这将打开通往诸如人工智能与常识,知道它是不好开车的悬崖,或人工智能识别和适当应对人类情感,如知道一个哭泣的孩子可以通过做或说一些安慰孩子变成破涕为笑。改进的基于人工的翻译也是一种可能,因为人工智能有可能在同一时间内,在相同的材料上学习单词和其他语言的对等物,即使在没有足够的语言转录语言来进行传统的语音识别或翻译训练时也是如此。
相关阅读: