推出全新的交互式导航和社交导航 iGibson 挑战

文 / Google Research 软件工程师 Anthony Francis 和高级研究员 Alexander Toshev

在过去十年里,得益于规模化的基准,如可进行图像分类的 ImageNet 或用于物体检测的 COCO,计算机视觉的发展突飞猛进,这些基准不仅能为计算机视觉提供大量的数据集,同时还提出了有关模型评估的标准。然而,这些传统的基准仅可用于评估重点关注感知的被动型任务,但是近期的计算机视觉研究面临的大多是主动型任务,在这类任务中,机器人不仅要感知环境,还要在感知后做出相应行动(通常我们将其称为“Embodied AI”)。

  • 图像分类
    https://paperswithcode.com/task/image-classification

  • COCO
    https://cocodataset.org/#home

  • Embodied AI
    https://arxiv.org/abs/2103.04918

在 CVPR 2020 上由 Google 联合举办的首届 Embodied AI 研讨会中,主办方展示了几个有关主动型任务的基准挑战赛,其中包括由斯坦福大学和 Google 联合提出的 iGibson Sim2Real 挑战赛,该挑战赛的目的是在真实环境下,测试在逼真的模拟环境中训练的导航策略。挑战赛为开源性质,社区可借此在模拟环境中训练策略,然后在可重复的现实导航实验中运行这些策略,从而评估“模拟与实际的差距”,即模拟环境和现实世界中存在的差异。许多研究团队都在疫情期间提交了解决方案,挑战组织者能够在真实的机器人上安全运行这些解决方案,同时优胜者在线上的研讨会中介绍了他们的解决方案。

  • 首届 Embodied AI 研讨会
    https://embodied-ai.org/cvpr2020

  • iGibson Sim2Real 挑战赛
    http://svl.stanford.edu/igibson/challenge2020.html

  • 解决方案
    https://youtu.be/0BvUSjcc0jw

今年,斯坦福大学和 Google 自豪地宣布了全新的 iGibson 挑战赛,主题是交互式导航和社交导航,这是在 CVPR 2021 第二届 Embodied AI 研讨会中推出的 10 大主动视觉挑战赛之一。今年的 Embodied AI 研讨会由 Google 和其他九个研究机构联合举办,深入探讨了模拟训练、模拟到现实的转换、视觉导航、语义映射和变化检测、对象重排与恢复、听觉导航与遵循导航和交互式任务说明的相关问题。此外,在今年的交互式和社交 iGibson 挑战赛中,我们结合 iGibson 模拟器、Google 的扫描对象数据集,以及在现实人类环境中模拟的行人,深入探讨了交互式和社交导航,例如机器人如何学习与环境中的人和对象互动。

  • iGibson 挑战赛
    http://svl.stanford.edu/igibson/challenge.html

  • 第二届 Embodied AI 研讨会
    https://embodied-ai.org/

  • iGibson 模拟器
    http://svl.stanford.edu/igibson/

导航面临的全新挑战

主动型感知任务颇具挑战,在这类任务中,机器人不仅要感知周围环境,同时还要根据感知所得数据做出相应操作。例如,点导航是指在映射空间内进行导航的过程,例如在宜居建筑中驱使机器人行驶数公里,同时识别和避开障碍物。同样,对象导航是指在建筑物中寻找对象的过程,该过程需要保持网域不变并执行对象搜索行为。此外,视觉语言指令导航是指在建筑物内根据视觉图像和自然语言命令进行导航的过程。这些问题在现实环境中更加难以实现,因为在现实环境下,机器人必须能够解决大量的物理和社交难题,而这些问题通常会更加频繁地发生动态变化且极具挑战。在今年的 iGibson 挑战赛中,我们重点关注以下两项设置:

  • 交互式导航:在混乱的环境中,如果要让智能体导航到目标地点,那么它必须与多个对象进行物理交互才能成功到达目的地。例如,智能体应该能够辨别出应把鞋子放到一边,且过程中不能移动沙发和茶几。

  • 社交导航:在有人四处走动的拥挤环境中,如果要让智能体导航到目标地点,那么它必须在行人周围小心移动,尽可能减少对行人造成的干扰。

2021 年度 iGibson 数据集的全新特征

为促进技术研究以更好地解决这些问题,2021 年度 iGibson 挑战赛的数据集提供了用于训练的模拟交互式场景。该数集包含 8 个源自现实世界公寓的完全交互式场景,以及其他 7 个用于测试和评估的备用场景。

iGibson 提供 8 个源自现实世界公寓的完全交互式场景

为实现交互式导航,系统会将 Google 的扫描对象数据集中的小型对象填充到这些场景中,该数据集包含 3D 扫描的常见家用物品,可用于机器人模拟和计算机视觉研究领域,同时该数据集已获得知识共享许可协议的许可,研究人员可在研究过程中随意使用其中的对象。

Google 的扫描对象数据集中包含许多常见对象的 3D 模型

  • Google 的扫描对象数据集
    https://app.ignitionrobotics.org/GoogleResearch/fuel/collections/Google%20Scanned%20Objects

各参赛团队需要在斯坦福大学的开源 iGibson 模拟平台中完成这项挑战赛,该平台引入了 Bullet 物理引擎,能够实现快速、交互式以及逼真的机器人模拟。为应对今年的挑战赛,iGibson 已根据 ORCA 人群模拟算法扩展了完全交互式环境和行人行为。

iGibson 环境包括 ORCA 人群模拟和可移动对象

  • ORCA 人群模拟算法
    https://gamma.cs.unc.edu/ORCA/

   

加入挑战赛

iGibson 挑战赛现已全面启动,开发阶段的排行榜现已开放,鼓励参与人员提交机器人控制程序,以在开发排行榜中占据一席之地,我们将在保留数据集的交互式和社交导航挑战赛中对提交的程序进行测试。测试阶段将从 5 月 16 日一直持续到 5 月 31 日,团队可在此期间提交最终解决方案,我们将于 2021 年 6 月 20 日展示优胜者的演示版本。如要详细了解如何加入挑战,请查看 iGibson 挑战赛页面。

  • 排行榜
    https://eval.ai/web/challenges/challenge-page/808/overview

  • iGibson 挑战赛页面
    http://svl.stanford.edu/igibson/challenge.html

致谢

我们要感谢在推进机器人交互式和社交导航进程中与我们携手合作的同事,他们分别是来自斯坦福视觉与学习实验室 (SVL) 的 Chengshu Li、Claudia Pérez D'Arpino、Fei Xia、Jaewoo Jang、Roberto Martin-Martin 和 Silvio Savarese。同时感谢来自 Google 团队的 Aleksandra Faust、Anelia Angelova、Carolina Parada、Edward Lee、Jie Tan、Krista Reyman,以及在移动机器人领域与我们合作的其他协作者。我们也要感谢 Embodied AI 研讨会的协办机构,其中包括 AI2、Facebook、Georgia Tech、Intel、麻省理工学院、西蒙菲莎大学、斯坦福大学、加州伯克利学院和华盛顿大学。

更多 AI 相关阅读:

 点击屏末 | 阅读原文 | 了解 iGibson 挑战赛

相关推荐