最新新闻：

B站 2025 年第二季度营收 73.4 亿元，同比增长 20%零跑汽车累计交付量突破90万台，上半年度已实现盈利范式集团：2025年上半年收入26.26亿元，同比增长40.7%收入预期翻倍快手年中追加可灵AI推理算力相关投入国产新能源车遍布香港！35万的比亚迪海狮07EV，凭什么卖爆？携手谷爱凌，TCL空调以AI健康技术定义新一代空调从生成式AI到代理式AI：半导体技术赋能下一波创新浪潮 Intel 发布全新机架级 AI 芯片 Jaguar Shores，搭载 HBM4 内存 DeepSeek-V3.1发布：更高思考效率更强Agent 能力亚数TrustAsia 开启证书管理「服务化」CaaS 新时代德国美诺发布全新W2T2衣物护理系列NOVA Edition 阿里分拆斑马智行赴港上市:智能汽车操作系统迎来独立发展通义APP 推出知识库功能，助力用户高效管理个人与官方信息金山办公放不下协同梦智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent 智能体时代已至，商汤科技以视觉大模型重塑AI应用生态打工人养不起的“智能小电驴”，还能狂奔多久？小鹏P7全球首发冰雪AES：行业唯一冰雪路面可自动紧急转向避让耳机里的 “付费时代”：好内容为何值得买单？vivo全面升级影像战略，打造多场景融合体验

首页 > 云计算频道 > 大模型

阿里通义实验室开源音频生成模型ThinkSound 实现AI"听懂画面"

2025年07月04日 18:33:56 来源：Donews

　　阿里通义实验室今日宣布开源首个音频生成模型ThinkSound，该模型创新性地将思维链(CoT)技术应用于音频生成领域，使AI能够逐步分析画面事件与声音的关系，实现高保真、强同步的空间音频生成。

　　ThinkSound由多模态大语言模型和统一音频生成模型两部分组成，通过理解整体画面、聚焦具体物体、响应用户指令三个阶段生成精准对位的音频效果。为支持模型训练，研究团队构建了多模态音频数据集AudioCoT，包含2531.8小时高质量样本，涵盖动物鸣叫、机械运转等多种真实场景，并设计了精细化的数据筛选流程。

　　该模型解决了传统视频到音频生成技术难以捕捉动态细节和空间关系的问题，使AI能够像人类音效师一样结构化地分析和合成声音。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

海报生成中...

最新新闻

热门新闻

即时

全球顶级AI创作社区回归！海艺AI国内首发“全民娱乐化创作

海艺AI的模型系统在国际市场上广受好评，目前站内累计模型数超过80万个，涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景，基本覆盖所有主流创作风格。

第106届中国电子展：创新强基智造升级，引领国产替代新浪

新一代高端纸安慕斯闪耀CCF HPC 2025：科技与品质交融的高

新闻

明火炊具市场：三季度健康属性贯穿全类目

奥维云网(AVC)推总数据显示，2024年1-9月明火炊具线上零售额94.2亿元，同比增加3.1%，其中抖音渠道表现优异，同比有14%的涨幅，传统电商略有下滑，同比降低2.3%。

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

华硕ProArt创艺27 Pro PA279CRV显示器，凭借其优秀的性能配置和精准的色彩呈现能力，为您的创作工作带来实质性的帮助，双十一期间低至2799元，性价比很高，简直是创作者们的首选。

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

9月14日，2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。

专题

返回主页 ┊ 关于我们 ┊ 内容联系 ┊ 联系我们 ┊ 免责声明 ┊ 原创新闻 ┊ 门户版

Copyright www.citnews.com.cn 中文科技资讯 2009-2025 all rights reserved 网站联系微信 xishuinet

关键词：CITNews|Citnews中文科技资讯|中文科技资讯网|科技资讯网|中国科技资讯|中国科技新闻网|中国科技资讯网|快科技|新科技|中文科技数码头条号|中文移动新媒体

京ICP备18037198号-1 京公网安备 11010502041587号