在过去的两年中,视频生成技术经历了惊人的进步,尤其是短视频的创作。然而,制作超过一分钟的高质量、风格统一的超长视频仍然是一项巨大的挑战。对此,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab 以及英伟达等机构,共同推出了 LongVie 框架,系统性解决了这一领域中的核心问题。
LongVie 的目标是让超长视频的生成变得更加可控和一致。团队发现,传统的视频生成模型在处理长视频时,常常面临时序不一致和视觉退化等难题。前者主要表现为画面细节与内容不连贯,后者则指随着视频时长的增加,画面颜色和清晰度的下降。
为了解决这些问题,LongVie 从 “控制信号” 和 “初始噪声” 两个方面入手。首先,团队提出了 “控制信号全局归一化” 策略,这意味着在生成视频时,不再只在单一片段内进行归一化,而是统一整个视频段的控制信号,从而提升跨片段的连贯性。其次,他们引入了 “统一噪声初始化” 策略,确保各个片段共享同一初始噪声,这样可以从源头上减少不同片段之间的视觉漂移。
在解决视觉退化问题上,LongVie 采用了多模态精细控制方法。单一模态的控制常常无法提供稳定的约束,而 LongVie 结合了密集控制信号(如深度图)和稀疏控制信号(如关键点),并引入退化感知训练策略,使得模型在处理长视频时,能够保持更高的画质和细节。
此外,LongVie 还推出了 LongVGenBench,这是首个专为可控超长视频生成设计的基准数据集,包含100个超过1分钟的高分辨率视频,旨在推动该领域的研究与评测。根据定量指标和用户评测结果,LongVie 在多个评估上超越了现有技术,赢得了用户的高度偏好,达到了 SOTA(最先进技术)水平。
随着 LongVie 框架的问世,超长视频生成将迎来新的时代,创作者们将能够在更大的自由度下实现自己的创意。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
海报生成中...
海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。