索尼人工智能研究院(Sony AI)发布的音效生成基础模型
📌 项目定位
Woosh是专为音效生成(Sound Effects)优化的多模态生成式 AI 模型套件,旨在为音频研究社区提供高质量的开源基座模型,支持文本到音频(T2A)和视频到音频(V2A)两大核心任务。
🔗 技术报告:arXiv:2604.01929
🧩 核心模块组成
1️⃣ Woosh-AE:音频编码器/解码器
2️⃣ Woosh-CLAP:文本 - 音频对齐模型
3️⃣ Woosh-Flow / Woosh-DFlow:文本→音频生成
✅ 典型生成内容:
引擎轰鸣雨声雷鸣门轴吱呀人群欢呼激光音效等影视/游戏常用音效4️⃣ Woosh-VFlow / Woosh-DVFlow:视频→音频生成
🎬 应用场景示例:
为无声视频自动添加环境音、动作音效(如脚步声、风声、掌声)
支持仅视频条件(OV 模式)或视频+文本联合条件
🎯 技术亮点
🔹专注音效领域
不同于通用音乐/语音生成模型,Woosh 针对短时长、高动态、强瞬态的音效数据专门优化,对冲击声、机械声、自然声等类别表现突出。
不同于通用音乐/语音生成模型,Woosh 针对短时长、高动态、强瞬态的音效数据专门优化,对冲击声、机械声、自然声等类别表现突出。
🔹蒸馏加速推理
通过知识蒸馏技术,将原始扩散模型步数从 50+ 压缩至 6 步,在几乎不损失质量的前提下实现秒级生成,适合交互式应用。
通过知识蒸馏技术,将原始扩散模型步数从 50+ 压缩至 6 步,在几乎不损失质量的前提下实现秒级生成,适合交互式应用。
🔹模块化设计
各组件(AE/CLAP/Flow/VFlow)可独立使用或灵活组合,便于研究者进行迁移学习、模块替换或轻量化部署。
各组件(AE/CLAP/Flow/VFlow)可独立使用或灵活组合,便于研究者进行迁移学习、模块替换或轻量化部署。
🔹多基准评估验证
在公开数据集(如 AudioSet、Freesound)及索尼内部测试集上,多项指标(CLAP Score、FAD、MOS)达到或超越 Stable Audio Open、TangoFlux、MM-Audio 等开源方案。
在公开数据集(如 AudioSet、Freesound)及索尼内部测试集上,多项指标(CLAP Score、FAD、MOS)达到或超越 Stable Audio Open、TangoFlux、MM-Audio 等开源方案。
🌐 应用场景
📜 开源协议
⚠️ 注意:模型权重不可用于商业目的,但研究、教育、个人创作均可自由使用。
🏷️ 项目元信息
发布机构:Sony AI + Sony Group Corporation
团队:Gaëtan Hadjeres, Marc Ferras, Khaled Koutini 等 10 位研究者
代码语言:Python(100%)
依赖框架:PyTorch, Transformers, Gradio, Hugging Face Hub
硬件支持:CPU / CUDA / MPS(Apple Silicon)
GitHub:https://github.com/SonyResearch/Woosh
Star 数:190+(持续上升中)
💡一句话总结:
Woosh 是目前最专注音效生成的开源基础模型套件,以高质量、模块化、可蒸馏为核心优势,为创意工作者和研究人员提供了强大的音频生成新工具。


整合包说明
1 英伟达8G显卡即可愉快玩耍
2 生成音效速度极快
3 人气高就继续开发