• 首页 > 云计算频道 > 大模型

    Stability AI开源Stable Audio Open Small,手机秒变音频创作神器

    2025年07月03日 17:42:38 来源:AIbase基地

      Stability AI联合芯片巨头Arm正式开源Stable Audio Open Small,一款专为移动设备优化的341M参数文本到音频生成模型。这款轻量化模型能在Arm CPU上本地运行,生成高质量立体声音频,标志着AI音频生成技术向边缘计算和移动设备的重大迈进。

      技术亮点:轻量高效,移动端本地生成

      Stable Audio Open Small基于Stability AI此前发布的Stable Audio Open模型,通过深度优化,参数量从1.1B压缩至341M,显著降低了计算需求。得益于Arm的KleidiAI库支持,模型能在智能手机上以不到8秒的速度生成最长11秒的44.1kHz立体声音频,无需云端处理,适合离线场景。

      该模型采用潜在扩散模型(Latent Diffusion Model),结合T5文本嵌入和基于变压器的扩散架构(DiT),通过简单的英文文本提示(如“128BPM电子鼓循环”或“海浪拍岸的声音”)即可生成音效、鼓点、乐器片段或环境音。AIbase测试表明,模型在生成短音频片段时细节丰富,尤其适合音效设计和音乐制作。

      开源与许可:赋能开发者与创作者

      Stable Audio Open Small遵循Stability AI社区许可,对研究人员、个人用户及年收入低于100万美元的企业免费开放,模型权重和代码已在Hugging Face和GitHub上发布。 大型企业需购买企业许可,确保技术在商业化中的可持续性。这种分级许可策略降低了技术门槛,鼓励全球开发者探索音频生成应用。

      此外,模型训练数据全部来自Freesound和Free Music Archive的免版税音频,确保了版权合规性,规避了如Suno和Udio等竞争对手因使用受版权保护内容而引发的风险。

      性能与创新:ARC后训练提升效率

      Stable Audio Open Small引入了对抗性相对对比(ARC)后训练方法,无需传统蒸馏或无分类器指导,结合相对对抗损失和对比鉴别器损失,显著提升了生成速度和提示遵循性。研究显示,模型在***GPU上生成12秒音频仅需75毫秒,在移动设备上约7秒,且在CLAP条件多样性得分上达到0.41,位居同类模型之首。

      主观测试中,模型在多样性(4.4)、质量(4.2)和提示遵循性(4.2)上均获得高分,展现了其在生成音效和节奏片段方面的优异表现。 其Ping-Pong采样技术进一步优化了少步推理,兼顾速度与质量。

      行业意义:推动移动AI与创意民主化

      Stable Audio Open Small的发布标志着AI音频生成技术向移动端和边缘计算的转型。与依赖云处理的竞争对手不同,该模型的离线运行能力为移动场景(如实时音效生成)提供了便利,覆盖全球99%的智能手机用户。 AIbase分析认为,这种技术普及将重塑音频创作生态,让普通用户也能参与专业级音效设计。

      然而,模型也存在局限性:仅支持英文提示,对非西方音乐风格的表现较弱,且无法生成逼真的人声或完整歌曲。 Stability AI表示,未来将优化多语言支持和音乐风格多样性,以提升全球适用性。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。