享国家补贴立省20% 惠普星Book X 14翻转创想本在京东先人一步开售集章抽惊喜大奖!京东3C数码武夷山快闪活动掀起五一打卡热潮大众汽车集团 Q1 销售收入 776 亿欧元同比增长 2.8%大众电动汽车旅程新里程碑,第 100 万辆成功下线动作传奇电影幕后:《疾速追杀》纪录片《Wick is Pain》5 月 9 日发布电影流浪地球:有第三方机构或个人冒用导演、剧组合作方身份发布信息,诱导公众联络创同类型机组世界纪录,我国首座商业重水堆单循环安全运行 738 天2025 年五一档新片总票房破亿,《水饺皇后》《雷霆特攻队 *》《人生开门红》暂列前三谷歌首席执行官皮查伊反击:拆分 Chrome 等激进计划严重损害公司创新BYDFi携手Ledger推出限量版硬件钱包 于TOKEN2049迪拜限量发放AI智能体行业标杆再获权威认证 云迹科技荣膺“2025机器人产业领军企业TOP100”技术赋能行业升级:佳能EOS VR系统助力专业级虚拟内容生产数智引领 共建智能体时代:超聚变亮相第八届数字中国建设峰会英特尔亮相超聚变探索者大会2025,共建智能体时代中国车企加速拥抱公有云,阿里云连续四年稳居第一英特尔推送锐炫核显电源管理更新,游戏性能显著提升快手成立可灵AI事业部专注大模型业务金仓数据库:深耕民生领域 赋能数字化转型新征程微星游戏本RTX50爆款新品,51电商大促+线下微星日好礼不断!百度优选MCP,AI电商新解法
  • 首页 > 产经新闻频道 > 业界新闻

    谷歌推多模态视频模型VLOGGER,自动生成丰富动作视频

    2024年04月02日 09:40:08   来源:站长之家

      谷歌的研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型,能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音,就可以获得逼真的视频效果。

      VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构,结合了文本生成图像模型和时空控制,从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试,结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

      要制作逼真的人物动画视频通常需要大量的人工调整和修补,以确保动作流畅自然。而 VLOGGER 的创新之处在于,其无需针对每个新人物重新训练模型,也不依赖于人脸检测框选区域,直接生成完整目标图像。此外,VLOGGER 还考虑到了现实中复杂的交流场景,如可见躯干、不同身份等因素,这对正确合成有效交流的人物动作至关重要。

      在技术实现方面,VLOGGER 首先通过 Transformer 神经网络处理音频波形输入,生成一系列3D 面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。其次,在空间和时间上进行条件控制,生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性。为了提高生成效果,VLOGGER 还采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高质量的影像。

      VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案,同时也在多模态视频生成领域取得了重要的技术突破。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。