全国爱眼日 天马在行动:五大维度定义护眼“好屏”新标准微软联合执法机构跨国打击印度电诈团伙,破解针对日本老年人的 AI 自动化骗局重庆市低空货运物流航线发布,京东物流首飞奇瑞董事长尹同跃:降价是应对竞争最无奈的招数,是饮鸩止渴的手段佳禾智能拟 10 亿元收购德国百年品牌拜亚动力全部股份及股东借款特斯拉市值蒸发 3800 亿美元,成今年美股表现最差大盘股全球第二大无源电子元件供应商国巨创始人:收购日本芝浦电子将带来“双赢”局面3.6 万人铸就全球市值最高公司:英伟达员工“身价”值 9000 万美元2025低空技术与工程大会在京开幕6月9日京东携手专家带来新高考规则解读 助力考生赢得考后志愿填报蔡司眼健康中国行2025广州站启动,世界冠军许昕助力全民眼健康科普华为浏览器高考Agent来了,查院校,填志愿在线问,秒解答!2025天枢杯青少年AI安全创新大赛颁奖仪式成功举办IDC:预计2025年中国物联网支出达1658.6亿美元世界模型成AGI关键,算力成本与数据质量成发展桎梏产教融合新样板!河北大学携手卓世科技共建实习实践基地与创新中心大厂争当AI「婆婆」第五届平潭IM两岸青年影展联合即梦AI发起“AIGC单元”智能电视仅需399元!价格战是策略还是毒药?消失的百亿利润背后,是拼多多的超绝钝感力 全国爱眼日 天马在行动:五大维度定义护眼“好屏”新标准微软联合执法机构跨国打击印度电诈团伙,破解针对日本老年人的 AI 自动化骗局重庆市低空货运物流航线发布,京东物流首飞奇瑞董事长尹同跃:降价是应对竞争最无奈的招数,是饮鸩止渴的手段佳禾智能拟 10 亿元收购德国百年品牌拜亚动力全部股份及股东借款特斯拉市值蒸发 3800 亿美元,成今年美股表现最差大盘股全球第二大无源电子元件供应商国巨创始人:收购日本芝浦电子将带来“双赢”局面3.6 万人铸就全球市值最高公司:英伟达员工“身价”值 9000 万美元2025低空技术与工程大会在京开幕6月9日京东携手专家带来新高考规则解读 助力考生赢得考后志愿填报蔡司眼健康中国行2025广州站启动,世界冠军许昕助力全民眼健康科普华为浏览器高考Agent来了,查院校,填志愿在线问,秒解答!2025天枢杯青少年AI安全创新大赛颁奖仪式成功举办IDC:预计2025年中国物联网支出达1658.6亿美元世界模型成AGI关键,算力成本与数据质量成发展桎梏产教融合新样板!河北大学携手卓世科技共建实习实践基地与创新中心大厂争当AI「婆婆」第五届平潭IM两岸青年影展联合即梦AI发起“AIGC单元”智能电视仅需399元!价格战是策略还是毒药?消失的百亿利润背后,是拼多多的超绝钝感力
  • 首页 > 云计算频道 > 大模型

    TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

    2024年01月08日 18:26:22   来源:机器之心

      本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心。

      在过去短短两年内,随着诸如LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。

      然而,与图片生成相比,视频生成仍存在巨大挑战。首先,视频生成需要处理更高维度的数据,考虑额外时间维度带来的时序建模问题,因此需要更多的视频 - 文本对数据来驱动时序动态的学习。然而,对视频进行准确的时序标注非常昂贵。这限制了视频 - 文本数据集的规模,如现有 WebVid10M 视频数据集包含10.7M 视频 - 文本对,与 LAION-5B 图片数据集在数据规模上相差甚远,严重制约了视频生成模型规模化的扩展。

      为解决上述问题,华中科技大学、阿里巴巴集团、浙江大学和蚂蚁集团联合研究团队于近期发布了TF-T2V视频方案:

      该方案另辟蹊径,提出了基于大规模无文本标注视频数据进行视频生成,能够学习丰富的运动动态。

      先来看看 TF-T2V 的视频生成效果:

      文生视频任务

      提示词:生成在冰雪覆盖的土地上有一只冰霜般的大生物的视频。

      提示词:生成一只卡通蜜蜂的动画视频。

      提示词:生成包含一辆未来幻想摩托车的视频。

      提示词:生成一个小男孩快乐微笑的视频。

      提示词:生成一个老人感觉头疼的视频。

      组合式视频生成任务

      给定文本与深度图或者文本与素描草图,TF-T2V 能够进行可控的视频生成:

      也可以进行高分辨率视频合成:

      半监督设定

      在半监督设定下的 TF-T2V 方法还可以生成符合运动文本描述的视频,如 「人从右往左跑」。

      方法简介

      TF-T2V 的核心思想是将模型分为运动分支和表观分支,运动分支用于建模运动动态,表观分支用于学习视觉表观信息。这两个分支进行联合训练,最终可以实现通过文本驱动视频生成。

      为了提升生成视频的时序一致性,作者团队还提出了一种时序一致性损失,显式地学习视频帧之间的连续性。

      值得一提的是,TF-T2V 是一种通用的框架,不仅适用于文生视频任务,还能应用于组合式视频生成任务,如 sketch-to-video、video inpainting、first frame-to-video 等。

      具体细节和更多实验结果可以参考原论文或者项目主页。

      此外,作者团队还把 TF-T2V 作为教师模型,利用一致性蒸馏技术得到了 VideoLCM 模型:

      不同于之前视频生成方法需要大约50步 DDIM 去噪步骤,基于 TF-T2V 的 VideoLCM 方法可以只需要进行大约4步推理去噪就生成高保真的视频,极大地提升了视频生成的效率。

      一起来看看 VideoLCM 进行4步去噪推理的结果:

      具体细节和更多实验结果可以参考 VideoLCM 原论文或者项目主页。

      总而言之,TF-T2V 方案为视频生成领域带来了新思路,克服了数据集规模和标注难题带来的挑战。利用大规模的无文本标注视频数据,TF-T2V 能够生成高质量的视频,并应用于多种视频生成任务。这一创新将推动视频生成技术的发展,为各行各业带来更广阔的应用场景和商业机会。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。