日前,谷歌公司工程副总裁Ben Treynor Sloss表示,其全球在线服务的庞大数量的数据中心将很快在人工智能的帮助下运营。这一预测是基于机器学习系统的计划所确定的,这个系统为谷歌公司在2016年推出的一个数据中心提供了相应帮助。
谷歌公司的DeepMind系统通过调整服务器的运行方式以及控制电源和冷却设备的操作,显著提高了其数据中心的能源效率。通过DeepMin系统的帮助,谷歌公司可以将服务器的能耗降低约40%。如果谷歌公司在其全球所有的数据中心应用这一技术,那么每年可以节省数千万美元的成本。
“我们开发的产品如此引人注目,以至于我们的挑战更像是一个工程。我们到底能够多快地将其推广到全球各地的数据中心?”Sloss说。“如果用户能节省这么多的电能,想要获得这些收益,我们将继续完善这个模式,并且继续可能把更多的系统置于其关注的状态,因为其初步的结果是如此令人印象深刻。”
Sloss表示,不仅仅是谷歌公司正在呼吁将其数据中心运营置于人工智能的管理之下,通过自我学习系统所取得的成果对人工决策有着明显改善,使用机器学习系统将迅速成为运行大型数据中心时必不可少的措施。
他说:“这样做的结果不仅仅是在几年之后受益,就是与目前相比,其状况水平要好得多。培训网络是进行一个基本的模拟过程控制,我猜测这将会变得更加普遍。”
也许更令人惊讶的是,DeepMind系统通过改变传统逻辑来实现这些结果。尽管传统的降低数据中心能耗的方法是尽可能少地运行冷却系统,但人工智能则建议以更低的功率级别运行所有系统。
谷歌公司首先透露,曾经试图在2014年将人工智能技术应用于运行数据中心,当时已经使用神经网络来挑选电力使用模式,并寻找降低电力功耗的机会。
DeepMind联合创始人Demis Hassabis表示,谷歌公司自2014年以来就加强了对人工智能的使用,使用了DeepMind人工智能来对数据中心的运行进行建模,并调整了与其运作相关的120个变量,以实现其能源效率达到高水平。当采用该模型的建议时,数据中心的能源使用效率(PUE)有所改善,这一措施反映了数据中心设施能够为服务器供电使用多少电能,而不是驱动相关的基础设施来处理冷却设备和功率分配。
调研机构451 Research数据中心和关键基础设施研究副总裁Andy Lawrence认为,谷歌公司使用人工智能来帮助运行数据中心的实验最终将成为主流。
“谷歌公司使用DeepMind来减少其数据中心的PUE值是人工智能/机器学习的一个有趣的应用,并且清楚地指出了最终将实现什么。”他说,“其长期趋势是使用软件工具自动或自主管理数据中心。”
不过,他表示,谷歌公司目前的数据中心的效率已经非常高,而目前只能将数据中心的电源效率从86%提高到88%。
“即使如此,谷歌公司在全球范围内的数据中心也将节省很大的成本,因为每年使用超过500万千瓦时的电力。”他补充说,这种方法对于规模庞大的科技公司来说可能是有意义的,但需要大规模的投资。
“即使是谷歌公司,其面临的一个挑战是需要大量的传感器,而且这些传感器的部署成本可能会非常昂贵。”他说。
Lawrence表示,Vigilent公司采用基于机器学习的算法方法来优化客户的冷却服务,而且长期来看,希望看到“基于人工智能的效率服务作为服务提供给数据中心”。
谷歌公司开启和关闭机器学习建议时的数据中心功耗的差异
Lawrence 表示,“我对我们能够做的事情感到兴奋。”也许DeepMind的机器学习系统最有效的演示就是DeepMind AlphaGo,这个人工智能技术最近在与人类的围棋比赛中获得胜利,这个古老的中国游戏的复杂性让计算机专家为之努力了几十年。围棋的每回合约有200种可能进行的动作,而国际象棋约为20种。在围棋游戏的过程中,计算机通过提前搜索围棋回合中的每一个动作,以确定最佳游戏步骤,这在计算的角度来说有些复杂昂贵。相反,AlphaGo已经将3000万次的围棋比赛的人类行为训练深入学习的神经网络来玩游戏。
培训这些深入学习网络可能需要很长时间,因为系统逐渐优化模型才能获得大的效果,因此需要大量的数据被摄取和迭代。
为了简化培训过程,谷歌公司开发了自己的专用芯片,称为张量处理单元(TPU),可以通过谷歌公司的TensorFlow软件库来加快实现机器学习模式的速度。这些芯片不仅仅用于培训DeepMind和Google Brain的模型,还包括支持Google翻译和Google Photo中图像识别的模型,以及允许公众使用Google TensorFlow研究云构建机器学习模型的服务。这些芯片的第二代产品已在今年5月的Google I/O会议上亮相,随着这些新型TPU提供的一系列功能,训练一个用于翻译的Google机器学习模型可以节省一半的时间。
Sloss说:“TPU比目前可用的技术具有巨大的性能优势。在这个时候,所有正在致力研究机器学习的厂商都是在人机大赛表演之后追逐的,这会带来一个很大的竞争优势,因为可以在某种程度上模仿一些有用的东西。”
在谷歌公司数据中心未来对TPU的推出没有作出坚定承诺的同时,他表示:“我怀疑能否将继续使TPU得到更广泛地使用”。
即使作为谷歌公司的内部人士,Sloss也承认,机器学习能力在能够并行处理大量数据的处理器背后推动的速度,以及庞大的培训数据集的可用性令人吃惊。
他表示:“在过去的几年里,机器学习的整体能力还在不断提高。我是一名棋手,如果有人三年前告诉过我,2017年世界围棋冠军将是一台电脑,我当时不会这么确定。而在三年之后,我们实现了这个目标。我很期待机器学习能在接下来的五年里为世界做些什么。”