• 首页 > 企业IT频道 > ARVRMR

    麻省理工、哈佛、斯坦福等研究员联合开发3D世界场景生成AI平台TDW

    2021年12月16日 10:20:33   来源:映维网

      在厨房里,你将金属碗从柜面大力推向水槽,并因而发出砰的一声。在另一个房间里,听起来像是摇摇欲坠的木块终于倒塌,另外还出现了玩具汽车的巨大相撞声。尽管这个世界看似真实,但事实却并非如此。

      在一项研究中,麻省理工学院(MIT)、MIT-IBM沃森人工智能实验室、哈佛大学和斯坦福大学的研究人员开发了一个名为ThreeDWorld(TDW)的平台,并希望创造一个类似于《黑客帝国》的丰富虚拟世界。TDW能够模拟室内和室外的高保真音频和视频环境,并允许用户像在现实生活中一样根据物理定律与对象进行交互。当发生相互作用时,系统能够计算并执行流体、柔体和刚体的对象方向、物理特征和速度,从而产生精确的碰撞和撞击声音。

      值得一提的是,这种逼真3D世界可以结合虚拟现实,通过将人类被试放到由TDW生成的逼真场景中来进行各种社会行为学研究。

      据介绍,TDW的独特之处在于其设计灵活且可泛化,可实时生成合成照片真实场景和音频渲染,可编译成视听数据集,通过场景内的交互进行修改,并适用于人类和神经网络学习和预测测试。另外,不同类型的机器人代理和虚拟化身可以在受控模拟中生成,从而执行任务规划和执行。例如,利用虚拟现实,人类注意力和游戏行为可以提供真实世界的数据。

      研究人员指出:“我们正尝试构建一个通用模拟平台,为各种AI应用模拟现实世界中的丰富交互。”

      1. 机遇

      创造逼真虚拟世界来研究人类行为和训练机器人一直是人工智能和认知科学研究人员的梦想。尽管业界已经出现了类似的方案,但都是为特定应用而设计,缺乏泛化能力。

      MIT-IBM沃森人工智能实验室项目负责人、脑与认知科学系副教授乔什·麦克德莫特(Josh McDermott)解释道:“目前大多数人工智能都是基于监督学习,而监督学习依赖于人类注释图像或声音的巨大数据集。相关的成本非常高,为研究造成了瓶颈。另外,对于物体的物理性质,比如说质量,人类观察者并不总是能够轻松发现。诸如TDW这样的模拟器能够生成所有参数和注释都为已知的场景,从而避免这个问题。实际上,业界大多数模拟都是出于这种考虑,但都是为特定的应用而设计,而具备灵活性的TDW则旨在支持大量的用例。”

      麦克德莫特指出,TDW的另一个优点是,它为理解学习过程和促进人工智能机器人的改进提供了受控设置。依靠反复试验的机器人系统可以在不会造成损害的环境中进行学习。

      另外,研究人员可以结合虚拟现实,将人类被试放到由TDW生成的逼真场景中,从而进行各种研究。麦克德莫特补充道:“我们中的许多人对这种虚拟世界为人类实验带来的可能性感到兴奋,它可以帮助我们了解人类的感知和认知。你可以创造非常丰富的感官场景,并依然能够完全控制和完全理解环境中发生的事情。”

      2. 框架

      这项研究始于麻省理工学院、斯坦福大学和IBM研究人员在听觉、视觉、认知和感知智能等方面的合作。TDW能够在一个平台上将所述一切结合在一起。

      专注于研究人类和机器听觉的麦克德莫特指出:“我们都对构建一个虚拟世界的想法感兴趣。这个虚拟世界的目的是训练我们可以实际用作大脑模型的人工智能系统。在这种环境中,你可以让物体相互作用,然后从中呈现真实的感官数据。这将是一种有价值的研究方法。”

      为了实现这一目标,研究人员在Unity3D引擎构建了TDW,并致力于在不使用任何动画的情况下结合视觉和听觉数据渲染。

      模拟由两部分组成:the build和the controller。前者渲染图像、合成音频和运行物理模拟;后者是一个基于Python的界面,并允许用户向the build发送命令。

      研究人员从广泛的三维模型库中提取对象(如家具、动物和车辆),从而构建和填充场景。模型能够准确地响应照明变化,而材质组成和方向决定了它们在空间中的物理行为。动态照明模型精确模拟场景照明,与一天中的适当时间和太阳角度相对应。

      团队同时创建了虚拟平面布置图,从而允许使用代理和化身填充。

      为了合成逼真的音频,TDW利用由碰撞或模拟中的其他对象交互触发的碰撞声音的生成模型。TDW同时根据空间的几何结构和其中的对象模拟噪声衰减和混响。

      TDW中的两个物理引擎为交互对象之间的变形和反应提供动力:一个用于刚体,另一个用于柔体和流体。TDW执行有关质量、体积和密度、以及任何摩擦力或其他力的瞬时计算。这使得机器学习模型能够了解具有不同物理特性的对象的行为。

      在实现中,研究人员可以通过the controller命令直接对物体施加力,这可以让虚拟球运动起来;虚拟化身可以在空间内以某种方式行动或行为;VR设备则允许用户与虚拟环境交互,并生成机器学习模型可以学习的人类行为数据。

      3. 推进人工智能技术

      为了试验和演示TDW的独特特性、功能和应用,团队运行了一系列测试来比较TDW和其他虚拟仿真生成的数据集。团队发现,在图像分类测试中,使用随机放置的TDW摄像机角度对场景图像快照进行训练的神经网络优于其他模拟,接近于在真实图像训练的系统。

      研究人员同时根据TDW中掉落场景的音频片段生成并训练了一个材料分类模型,然后要求它识别相互作用的材料类型。实验结果表明,与竞争对手相比,TDW产生了显著的收益。物体跌落测试表明,将听觉和视觉结合起来是识别物体物理特性的最佳方法。

      TDW对于设计和测试理解场景中的物理事件如何随时间演变的系统特别有用。这包括促进模型或算法在物理预测方面的基准测试,例如,物体堆叠的稳定性,或碰撞后物体的运动。

      研究人员指出,所述应用只是冰山一角。通过扩展TDW的物理模拟能力,团队希望能够更准确地描述真实世界:“我们正尝试创建新的基准来推进AI技术,并利用基准来揭示许多迄今为止难以研究的新课题。”

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。