2020-04-28
无论是在拥挤的人行道上行走,还是在社区足球联赛中射门进球,人类都会下意识地利用感知动作循环(perception-action loop)做几乎所有的事情。感知动作循环可以使我们在一个连续的实时循环中使用感官输入做出正确的动作,其也是 “自治系统” 的核心。
但当前一代的机器人等 “自治系统” 在直接根据视觉数据做出正确决策方面仍远远不及人类,其依然受到难以收集大量真实世界数据的限制。此外,虽然我们能轻易生成大量模拟数据,但这类数据在现实生活的各种场景中,通常不能催生安全的行为。
如何让机器人具有如人类一般的 “自治” 能力?一项来自微软研究人员的研究,让我们看到了巨大的可能性。
研究人员向我们描述了这样一种机器学习系统:它可以帮助机器人直接从相机图像中推理出正确的动作。以无人机为例,无人机可以通过模拟学习完成特定路线的导航。
通过模拟训练,机器人可以学会独立观察现实世界中的环境和条件(包括看不见的情况),然后作出正确决策,这使得机器人非常适合用于搜索和救援任务。研究人员认为,在不久的将来,这种机器学习系统可以帮助机器人更快地识别出需要帮助的人。
受人类大脑的启发,该系统将视觉信息直接映射到正确的控制动作上,也就是说,将视频帧的高维序列转换为代表真实世界状态的低维形态。根据研究人员的说法,这种方法使模型更容易解释和调试。
研究人员在微软官网上的一篇博客文章中写道:“我们希望可以借助这个系统使得当前技术更加接近人类应对环境提示、适应困难条件和自主操作的能力。我们有兴趣去探索要建立一个达到人类水平的自主系统需要做些什么。”
无人机实验
在机器学习系统框架内,研究人员将感知组件(即理解所看到的东西)与控制策略(根据看到的东西决定做什么)分开。“通过将 ‘感知行动循环’ 分为两个模块,并将多种数据模式纳入感知训练阶段,我们可以避免网络过度拟合传入数据的非相关特征。比如,尽管用于模拟和物理实验中的门的大小相同,但它们的宽度、颜色,甚至内在的相机参数却不一样。” 一位研究人员说。
该团队将机器学习框架应用在一个带有前置摄像头的小型四轴飞行器上,在只使用来自相机的图像的情况下,试图通过为无人机传授一种 AI 策略,从而使其完成特定路线的导航。
研究人员使用一个名为 AirSim 的高保真模拟器在模拟环境下训练 AI,然后将其部署到现实世界的无人机上。其中,一个关键挑战是模型必须对模拟和现实世界之间的差异(如光照、纹理)具有鲁棒性(指控制系统在一定结构 / 大小的参数摄动下维持其它某些性能的特性)。为此,研究人员使用了一个名为跨模态变量自动编码器(CM-VAE)的框架,来生成紧密弥合模拟与现实差距的表征,从而避免对无关数据的过度拟合。
在无人机实验中,一种数据模态考虑了原始无标签传感器输入(FPV 图像),而另一种数据模态描述了与当前任务直接相关的状态信息,后者对应于无人机坐标框架中定义的下一个门的相对姿势。研究人员通过扩展 CM-VAE 框架,得到了一种低维的潜在环境表征。该框架为每个数据模态使用一个编码器 - 解码器对(encoder-decoder pair),同时压缩与单个潜在空间之间的所有输入和输出(图 b)。该系统将有标记和无标记的数据模式自然地纳入潜在变量的训练过程,然后使用模仿学习训练一种深度控制策略,将潜在变量映射到无人机的速度命令中