向上而行:飞碟汽车的品牌升维与价值远征智慧网球新体验!MAXHUB X7四足机器人成黄埔国际网球公开赛最受关注“工作人员”OPPO Find X9系列全球首发自研1nit明眸护眼屏:显示超越iPhone 成本极高阿里妈妈发布万相台AI无界:新流量新节奏之下的双11,AI是经营唯一解方洪波迎战雷军,祭出两大Agent五菱新能源发布全新品牌“埃尚”,首款车型A100C即将上市阿里与微信合作再升级?淘宝小程序或重回微信闭环交易QuestMobile 2025年8月AI应用行业月度报告:移动端应用用户规模达到6.45亿浙江华业2025上半年营收利润双增,下游需求与技术创新成关键支撑纵横G700亮相迪拜哈利法塔,豪华越野开启全球化新篇章高通钱堃:携手伙伴营造有利于创新的知识产权保护氛围脉脉:AI领域平均月薪达61475元 “搜索算法”岗位人才紧缺岚图新时代旗舰SUV官图发布:轴距3120mm 800V平台+5C超充OPPO周意保:Find X9 Pro将成行业首个“真2亿”手机李想:理想i6不同于Model Y和小米YU7 是第三种风格的五座纯电SUV金蝶国际收购云之家控股权 加速企业数字化服务布局乐刷支付斩获2025外滩大会美国运通“支付场景共创奖”科技创新再获重磅认可 同驭汽车荣获江西省科技进步一等奖腾讯邱跃鹏:面向Agent和全球化趋势,全面升级云基础设施B站想用「视频播客」吸引更多优质创作者
  • 首页 > 云计算频道 > 大模型

    Wayve推出GAIA-1 9B,通过生成合成视频训练自动驾驶

    2023年10月07日 12:07:48 来源:站长之家

      英国初创公司Wayve在2023年6月发布了GAIA-1(Generative Artificial Intelligence for Autonomy),这是一款为自动驾驶车辆培训数据而设计的生成式模型。GAIA-1的最新版本,GAIA-19B,已经取得了令人瞩目的进展。

      GAIA-1的独特之处在于它的能力,它能够使用文本、图像、视频和行动数据来生成各种交通情景的合成视频。这一能力填补了自动驾驶车辆训练中的数据缺口。

      试想一下,在雾中,有一个行人从卡车后面跳出来,同时一名摩托车手即将超越你,一名自行车手从前方靠近。这是一个真实的情景,但要捕捉到这个精确的场景,你需要开多少英里的车并进行拍摄呢?GAIA-1回答了这个问题,它可以生成各种交通情景的合成视频,用于自动驾驶车辆的培训。

      与传统的生成式视频模型不同,Wayve表示,GAIA-1是一种生成式“世界模型”,它学会了理解和解读驾驶的最重要概念。它能够识别和分离不同的车辆及其特征、道路、建筑物或交通信号灯等概念。GAIA-1还学会了代表环境及其未来动态,为驾驶提供了结构化的环境理解,可用于做出明智的驾驶决策。

      自GAIA-1首次发布以来,Wayve团队对其进行了优化,以高效生成高分辨率视频,并通过大规模培训提高了世界模型的质量。该模型现在拥有90亿个参数(相对于六月版本的10亿个参数),还能够精确控制视频中的车辆行为和场景特征。这使其成为培训和验证自动驾驶系统的强大工具。

      GAIA-1的模型基于在2019年至2023年间在英国伦敦收集的4700小时专有驾驶数据。模型的架构包括每个输入模态(视频、文本和行动)的专用编码器、世界模型、自回归变换器和视频解码器,以及将预测的图像元素转换回像素空间的视频扩散模型。

      值得注意的是,GAIA-1的世界建模任务与大型语言模型(LLMs)常用的方法非常相似,其中任务被简化为预测下一个标记。在GAIA-1中,这一方法应用于视频建模,而不是语言。这表明随着模型大小和培训数据集的增加,GAIA-1在视频生成方面的性能和效率将继续提高,类似于大型语言模型在其各自领域内观察到的缩放模式。开发人员表示,随着更多的数据和处理能力,仍然存在“显著的改进空间”。

      此外,GAIA-1还可以预测过去的上下文视频图像的不同未来情景,包括行人、自行车手、摩托车手和对向交通的行为,从而使模型能够考虑与其他道路使用者的互动并对情况做出反应。GAIA-1还可以通过纯文本输入进行控制,例如,通过文本命令“天气是晴朗的”、“多雨的”、“有雾的”或“多雪的”来生成不同的驾驶情景。此外,它还可以使用文本命令,如“现在是白天,我们处于直射阳光下”、“天空是灰色的”、“现在是黄昏”和“现在是夜晚”,来创建不同的照明情景。

      然而,Wayve也指出了GAIA-1的一些局限性。虽然自回归生成过程非常有效,但需要大量计算,因此生成长时间的视频会非常计算密集。此外,当前模型主要集中于预测单一摄像机输出,而自动驾驶需要来自所有周围视点的全面视图,这是关键问题之一。

      未来的工作将扩展该模型的能力,以捕捉更广泛的视角,并优化其生成效率,使该技术更具适用性和效率。此外,Wayve还在开发Lingo-1,这是一种自动驾驶系统,将机器视觉与基于文本的逻辑相结合,以解释道路上的决策和情况。这种基于文本的逻辑可以增加车辆的安全感,使人工智能的决策不再像一个“黑盒子”。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    市场占比高达35.8%,阿里云引领中国AI云增长

    9月9日,国际权威市场调研机构英富曼(Omdia)发布了《中国AI云市场,1H25》报告。中国AI云市场阿里云占比8%位列第一。

    企业IT

    “三位一体”数据保护体系,筑牢企业出海安全“生命

    戴尔科技一直致力于通过“三位一体”数据保护体系,为中国企业的数据安全“保驾护航”。

    3C消费

    雅马哈推出两款高端头戴耳机YH-4000与YH-C3000

    雅马哈昨日宣布推出两款头戴式耳机,分别是平板振膜的YH-4000和动圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清洁机器人出货量同比暴

    IDC今日发布的《全球智能家居清洁机器人设备市场季度跟踪报告,2025年第二季度》显示,上半年全球智能家居清洁机器人市场出货1,2万台,同比增长33%,显示出品类强劲的市场需求。