Facebook发布AR/VR研究项目Ego4D

2021年10月20日 09:34:40 来源：映维网

　　随着AR眼镜和VR头显逐渐成为智能手机这样的普及设备，能够从第一人称角度理解世界的人工智能可以开启沉浸式体验的新时代。想象一下，你的AR设备能够在架子鼓课堂中准确显示如何握拿鼓槌，指导你根据食谱烹饪菜肴，帮助你找到丢失的钥匙，或者通过面前的全息图帮助你回忆过去……

　　为了构建所述新技术，我们需要教导AI如同人类一样从第一人称角度理解世界并与其交互，亦即研究业界所说的自我中心认知。然而，今天的计算机视觉系统通常是利用数百万张以第三人称视角拍摄的照片和视频进行学习。Facebook首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示：“下一代人工智能系统需要从一种完全不同的数据中学习：一种从事件中心视觉而不是边线视觉展示世界的视频。”

　　所以，Facebook AI日前发布了一个旨在解决自我为中心认知挑战的长期研究项目：Ego4D。团队组建了一个由9个国家的13所大学和实验室组成的联盟，并收集了2200多小时的第一人称视频，其中有700多名参与者讲述了自己的日常生活。这极大地增加了当前研究社区公开的自我中心认知数据规模，而且要比任何其他数据集多20倍(以小时为单位)。当然，为了资助项目，Facebook向每一所参与的大学赠送了学术礼品。

　　Facebook AI同时与所述联盟和Facebook Reality Labs Research(FRL Research)合作，开发了五个围绕第一人称视觉体验视觉体验的基准挑战。Ego4D的五个基准是：情景记忆：什么时候发生?(“我把钥匙放在哪里了?”) 预测：我接下来可能会做什么?(“等等，你已经放盐了。”) 手-物交互：我在做什么?(“教我如何打鼓。”) 视听日记：谁在什么时候说了什么?(“课堂上的主要话题是什么?”) 社交互动：谁在和谁互动?(“帮助我在这家吵闹的餐厅里听清谁在跟我说话。”)

　　所述基准测试将促进针对开发智能AI助手所必需的构建模块的研究。智能AI助手不仅可以在现实世界中实现理解和交互，同时可以在元宇宙中实现理解和交互。对于元宇宙，物理现实、增强现实和虚拟现实都集中在一个空间里面。

　　所述数据集将于今年11月向签署Ego4D数据使用协议的研究人员公开。各大学团队需要遵守各自的机构研究条例。这个过程涉及制定符合机构研究伦理委员会和/或审查委员会标准的研究方案，包括获得参与者知情同意和/或视频发布。

　　作为这项研究的补充，FRL的研究人员使用了Vuzix Blade智能眼镜，并在研究实验室的分阶段环境中收集额外400小时的第一人称视频数据。当然，团队已经获得了视频拍摄人员的书面同意。所述数据同样会公布。

　　通过致力于开放式科学和研究，Facebook希望人工智能领域能够更快地推动自我中心认知的进步。

　　1. 为什么自我中心认知很难

　　假设你第一次坐过山车。除了肾上腺素激增和一定的尖叫声之外，乘坐人员和地面游客的视角完全不同。

　　左为地面游客的第三人称视角，右为过山车乘坐人员的第一人称视角

　　尽管我们能够轻松理解第一人称和第三人称视角，但今天的人工智能并不具备这种理解水平。即便已经通过数十万个基于地面视角的过山车图像或视频进行训练，当你将计算机视觉系统绑在过山车时，它可能依然不清楚自己在看什么。

　　格劳曼表示：“要令人工智能系统如同人类一样与世界交互，人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教导人工智能在实时运动、交互和多传感器背景下以人眼角度理解日常生活活动。”

　　左为站在边线的游客的第三人称视角，右为单车骑乘者的第一人称视角

　　Ego4D项目的重点是为研究人员提供必要的工具和基准，以促进研究并推动以自我中心认知的发展。

　　2. 解包真实世界的数据集

　　历史证明，基准和数据集是人工智能行业创新的关键催化剂。今天，几乎可以识别图像中的任何对象的计算机视觉系统都是建立在数据集和基准之上，例如MNIST、COCO和ImageNet。所述数据集和基准为研究人员提供了一个研究真实世界图像的实验台。

　　但自我中心认知是一个全新的领域。我们不能用昨天的工具来实现明天的创新。Ego4D前所未有的规模和多样性对于开创下一代智能AI系统至关重要。

　　为了建立第一个同类数据集，与Facebook合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器，以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频，比如购物、烹饪、边玩游戏边聊天，以及与家人和朋友进行其他团体活动。视频采集捕获了摄像头佩戴者在特定环境中选择注视的对象，以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止，摄像头佩戴者已经执行了数百项活动，并与数百种不同的对象进行了交互。

　　EGO4D数据集中的参与者生活在英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国，涉及不同年龄、职业和性别。与现有数据集相比，Ego4D数据集提供了更大的场景、人物和活动多样性，这提升了为不同背景、种族、职业和年龄人群所训练的模型的适用性。

　　Facebook认为，全球表征对于自我中心认知研究至关重要，因为自我中心视觉体验在不同的文化和地理背景下会有显著差异。例如，如果将来有人在烹饪时穿戴AR眼镜，并请求AI助手指导咖喱食谱，理想情况下的AI系统应该能够识别烹饪咖喱在不同地域的风格和风味。

　　3. 建立智能的自我中心认知

　　格劳曼指出：“与数据收集同样重要的是确定正确的研究基准或任务。这个项目的一个重要里程碑是提炼出自我中心智能认知到底意味着什么。在这种认知中，我们能够回忆过去，预测未来，并与人和物互动。”Ego4D的五个挑战性新基准为研究人员提供了一个共同的目标：为视觉和社交情景的真实感知进行基础研究。

　　构建所述基准需要对自我中心数据集进行严格的注释。对于这项大规模的注释工作，Facebook AI利用训练有素的第三方注释员来标记在五项基准任务中训练和评估算法所需的数据。这用到了Facebook的Human-AI loop(Halo)注释平台，而团队为注释任务编写了具体的指南，并对工具本身进行了微调。研究人员收集了各种各样的标签类型，如描述摄像头佩戴者活动的密集文本叙述、对象和场景的时空注释、以及多模态语音转录。总的来说，团队转录了数千小时的视频，收集了数百万条注释，而且采样标准涵盖了联盟中所有合作伙伴的视频数据，从而确保结果数据集的多样性。所以当今年Ego4D数据集发布后，研究社区可以立即使用相关数据集并以所述基准构建和测试自己的模型。

　　以下是基准的分解，而这五个构成要素可以成为构建更有用AI助手、机器人和其他未来创新的基础：情景记忆：什么时候发生的?人工智能可以通过检索过去的自我中心视频中的关键时刻来回答自由形式的问题，并扩展你的个人记忆。要做到这一点，模型必须在过去的视频帧中定位对查询的响应，并且在相关的情况下进一步提供环境中的三维空间方向。所以，如果你准备和孩子一起玩耍，你可以询问AI助手或家用机器人这样一个问题：“我把我孩子最喜欢的泰迪熊放在哪里了?” 预测：我接下来要做什么?AI可以理解摄像头佩戴者的行为将如何影响未来世界的状态，比如下一步会移动到哪里，可能会接触到什么物体，或者接下来可能会参与什么活动。预测行动不仅需要认识到已经发生了什么，同时需要展望未来，预测下一步行动。这将允许未来的人工智能系统提供有用的指导。例如，在你准备拿起盐瓶的时候，AI助手可以向设备发送这样一个通知：“等等，你已经放盐了。” 手-物交互：我在做什么，如何做?学习手如何与物体互动对于指导日常任务至关重要。人工智能必须检测第一人称人机交互，识别抓取，并检测对象状态变化。这一推动力也是由机器人学习推动的，机器人可以通过视频中观察到的人的经验来获得经验。因此，当你烹饪食谱时，你的AI助手可以指导你需要哪些配料以及你首先需要做什么，了解你已经做了什么，并指导你完成每一步。视听日记：谁在什么时候说了什么?人类可以通过声音来理解世界，并识别谁说了什么，何时说了什么。未来的人工智能同样可以。对于一堂重要的课程，但你由于保姆给你发短信而造成分心，你可以稍后向AI询问：“在教授发回考试试卷后，课堂讨论的主要话题是什么?” 社交互动：我们是如何进行社交互动的?除了识别视觉和声音线索，理解社交互动是任何智能AI助手的核心。一个具有社会智能的AI都需要理解谁在和谁说话，谁在关注谁。这样，下次你在晚宴时AI就能帮助你在吵闹环境中听清对方说了什么。

　　4. Ego4D的下一步

　　Facebook强调，目前只是触及了自我中心认知的皮毛。对于Ego4D项目，Facebook AI、FRL和大学联盟希望为学术界和行业专家打造了一条全新的道路，以帮助大家构建更智能、更灵活和更具交互性的计算机视觉系统，而今天的研究将对我们未来的生活、工作和娱乐方式产生积极影响。

　　随着人工智能越加深入理解人类的日常生活方式，它将能开始以前所未有的方式对体验进行情境化和个性化。

　　格劳曼表示：“Ego4D使得人工智能有可能获得植根于物理世界和社会世界的知识，并通过生活其中的第一人称视角来感知认知情景。人工智能不仅可以更好地理解周围的世界，并有朝一日能够在个人层面实现个性化体验：它可以知道你最喜欢的咖啡杯，或者为你下一次的家庭旅行提供指导。我们正在积极研究能够做到这一点的AI助手启发式研究原型。”

　　有了Ego4D基准支持的人工智能，并在相关数据集进行过训练，未来的AI助手可以以独特而有意义的方式提供价值。通过增强记忆，AI助手可以帮助你回忆起最近与同事谈话中的关键信息，找到你女儿把自行车头盔放在了哪里，又或者是实时提供补充技能，例如指导你拼接宜家家具或按照新食谱做饭。Facebook表示：“我们相信，从这一系列研究中获得的价值，以及行业不断取得的进步将推动我们走向这一未来现实。”

　　相关论文：Ego4D: Around the World in 3,000 Hours of Egocentric Video

　　值得一提的是，上述的大学联盟将在今年年底发布用于授权协议所允许的用例的相关数据。

　　到明年初，研究人员可以关注Ego4D的研究挑战，而世界各地的人工智能专家可以教导机器以第一人称视角理解我们日常生活活动。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信