今日,豆包大模型团队联合北京交通大学、中国科学技术大学共同发布了视频生成实验模型“VideoWorld”,并宣布其代码正式开源。与主流多模态模型如Sora、DALL-E和Midjourney不同,VideoWorld在业界首次实现了无需依赖语言模型即可认知世界。
现有模型大多依赖语言或标签数据来学习知识,而VideoWorld则专注于纯视觉信号的学习。例如,折纸、打领结等复杂任务难以通过语言清晰表达,而VideoWorld通过去除语言模型,实现了对这些任务的理解和推理。此外,该模型基于潜在动态模型,能够高效压缩视频帧间的变化信息,显著提升知识学习效率。
值得一提的是,VideoWorld在不依赖任何强化学习搜索或奖励函数机制的前提下,达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。这一创新为视频生成技术开辟了新的发展方向。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
海报生成中...
海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。
IDC今日发布的《全球智能家居清洁机器人设备市场季度跟踪报告,2025年第二季度》显示,上半年全球智能家居清洁机器人市场出货1,2万台,同比增长33%,显示出品类强劲的市场需求。