• 首页 > 云计算频道 > 大模型

    B站开源IndexTTS-2.0:突破自回归TTS时长与情感控制瓶颈

    2025年09月11日 10:40:15 来源:量子位

      近日,哔哩哔哩(B站)Index团队正式宣布,其自主研发的情感可控、时长可调的自回归零样本文本转语音(TTS)系统——IndexTTS-2.0,已全面开源

      该系统的发布被广泛视为零样本TTS技术迈向实用化阶段的关键里程碑。

      在语音合成领域,精准的时长控制与自然的情感表达一直是长期存在的技术难题。

      IndexTTS-2.0 在这一背景下推出两项核心创新:

      时间编码机制:首次在自回归TTS架构中引入时间编码,有效解决了传统模型在语音时长控制上精度不足的问题,实现了更稳定、更自然的语音节奏调控;

      音色与情感解耦建模:通过创新性的解耦建模方式,系统支持多维度灵活的情感调节。用户不仅可基于单一音频参考,还能通过独立的情感参考音频、情感向量或文本描述等多种方式,精准调控合成语音的情感表达,显著提升生成语音的表现力与适用性。

      基于上述技术架构,IndexTTS-2.0在语音生成方面表现出极高的灵活性。

    1.jpg

      从官方示例来看,该系统可广泛应用于AI配音、有声读物、动态漫画、视频翻译、语音对话及播客制作等多种场景,极大拓展了语音合成技术的创作与应用边界。

      尤其值得关注的是,IndexTTS-2.0为全球内容出海提供了重要技术支撑

      凭借高质量的情感复现与精准的时长匹配,跨语言视频可实现近乎“无差别”的本地化体验。

      无论是海外用户观看中文视频,还是中文用户聆听外语内容,均能在保留原声风格与情感的基础上,获得更加自然、沉浸的听觉体验。

      这一突破不仅大幅降低了优质内容跨语言传播的门槛,也为AIGC技术在全球范围内的落地提供了坚实基础。

      目前,IndexTTS-2.0 已同步开源项目论文、完整代码、模型权重及在线体验页面

      IndexTTS团队表示,未来将持续推进模型性能优化,并逐步释放更多资源与工具,与开发者社区共同构建开放、繁荣的语音技术生态,助力推动多语种交流与全球文化互联互通。

    中文科技资讯微信二维码logo

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。