DeepMind新方法训练的人工智能走得就很飘逸_业界资讯

DeepMind新方法训练的人工智能走得就很飘逸

2017-07-13 07:09 出处/作者：雷锋网整合编辑：比卡小姐责任编辑：lixiaoshi

无论是在树木间乱窜的猴子，还是躲避对手和进击目标的足球运动员，他们灵活敏捷的速度，都让人十分惊叹。掌握这种复杂的电机控制是物理智能研究的方向，是 AI 研究的重要组成部分。

机器人走路未必笨拙，DeepMind新方法训练的人工智能走得就很飘逸

真正的智能电机需要在一系列复杂的环境中，学习如何调节控制身体使其更加灵活来完成任务。目前，很多领域开始研究如何控制模拟人，包括计算机动画和生物力学领域。智能电机的另一种发展趋势是，使用手工制作的目标或运动捕捉的数据来产生特定的行为。然而，这可能需要相当多技术工作的努力，也可能会导致智能电机面对新任务时，难以重新调整行为。

在以下 3 篇新的论文中，阐述了 DeepMind 已经找到了 AI 学习灵活行为的方式，这种方式不仅能够重复使用，还能解决任务。

一、丰富的环境中表现的运动行为

如果玩 Atari 或 Go 时，目标很容易描述，就是赢。但是你如何描述一个后空翻表演的过程？或者仅仅只是单纯描述一下“跳”这个动作？当 DeepMind 把运动技能教授给人工系统时，常常会遇到这个问题，就是很难准确描述一个复杂的行为。 DeepMind 目前的工作就是研究如何在简单高水平的目标下，使身体能够从头开始与环境相互作用来完成复杂的行为，例如向前移动而不会下降。更具体地说，他们训练了各种模拟人，让他们在不同的地形上进行跳跃，转弯或者蹲伏。结果显示，模拟人完成这些复杂的技能前，并没有收到具体的指示。 DeepMind 需要找到一种方法，可以训练系统中明显不同的模拟人。下面的 GIF 显示了能够产生高质量的运动的技术。

模拟的“平面”步行者反复尝试翻墙

模拟的“蚂蚁”步行者在学习如何在木板之间精确地跳跃

二、通过对抗模仿学习人体行为

上述的模拟人解决突发行为的能力非常强大，但是由于这些动作必须从头开始，所以模拟人的动作看起来和人类行为不太一样。在 DeepMind 的第 2 篇论文中，阐述了如何通过运动捕捉数据来构建一个模仿人类行为的政策网络，需要预先学习一些技能，例如步行、起步、跑步和转弯等等。目前，模拟人已经产生了类似人类的行为，可以通过重新调整这些行为来完成其他任务，比如爬楼梯，通过导航绕过围墙等等。

下面的 GIF 可以查看模拟人的行为。

人形步行者产生类似人类的行走行为

人形步行者摔倒后立即站起来

三、模拟人模仿人类各种行为

第 3 篇论文提出了构建一种最先进的生成模型的神经网络结构，它能够学习不同行为之间的关系，并模仿它所显示的具体动作。经过训练之后， DeepMind 的系统可以编码观察到的动作，还可以创建新的小动作。尽管模拟人并没有看到动作之间的过渡，依旧可以在不同类型的动作之间切换，例如在行走风格之间的转换。

GIF 中左侧和中间演示了两个行为；GIF 中右侧展示了模拟人在不同行为之间产生了它从未见过的过渡

GIF 中左侧平面步行者演示了特定的行走风格；GIF 中右侧展示了我们的模拟人使用单一政策网络来模仿这种行走风格

实现模拟人行动灵活且适应控制是 AI 研究的关键要素。 DeepMind 的工作旨在开发一套系统，能够通过学习和调整技能来解决电机控制任务，同时减少手动工程。 DeepMind 未来的研究工作主要是扩展这些方法，以便在更复杂的情况下完成更多的任务。

DeepMind新方法训练的人工智能走得就很飘逸

一、丰富的环境中表现的运动行为

模拟的“平面”步行者反复尝试翻墙

模拟的“蚂蚁”步行者在学习如何在木板之间精确地跳跃

二、通过对抗模仿学习人体行为

人形步行者产生类似人类的行走行为

人形步行者摔倒后立即站起来

三、模拟人模仿人类各种行为

GIF 中左侧和中间演示了两个行为；GIF 中右侧展示了模拟人在不同行为之间产生了它从未见过的过渡

GIF 中左侧平面步行者演示了特定的行走风格；GIF 中右侧展示了我们的模拟人使用单一政策网络来模仿这种行走风格

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）