OmniVoice:600+语种的语音合成新纪元
剑二十七 · 技术前沿
🔹一句话了解
由小米下一代 Kaldi 团队(k2-fsa)打造的超大规模多语言零样本 TTS 模型,支持600+ 语种,以卓越音质与极速推理,重新定义语音合成体验。
由小米下一代 Kaldi 团队(k2-fsa)打造的超大规模多语言零样本 TTS 模型,支持600+ 语种,以卓越音质与极速推理,重新定义语音合成体验。
✨ 核心能力一览
🗣️全球语种覆盖
支持 600+ 语言与方言,从英语、中文到低资源语种,一模型通全球。
支持 600+ 语言与方言,从英语、中文到低资源语种,一模型通全球。
🔁声音克隆 · 3 秒复刻
仅需 3–10 秒参考音频,即可高保真克隆任意人声。参考文本可手动输入,也可由模型自动转录,零门槛上手。
仅需 3–10 秒参考音频,即可高保真克隆任意人声。参考文本可手动输入,也可由模型自动转录,零门槛上手。
🎨声音设计 · 随心定制
无需参考音频,通过自然语言描述即可自定义声音属性:
无需参考音频,通过自然语言描述即可自定义声音属性:
性别:男 / 女
年龄:儿童 → 老年 五档可选
音调:极低 ~ 极高 精准调节
风格:耳语等特殊发声方式
口音:美式 / 英式 / 中式等 10 种英文口音
方言:四川话 / 东北话 / 河南话等 12 种中文方言
⚡极速推理 · 40 倍实时
RTF 低至 0.025,推理速度达实时音频的 40 倍,高并发场景轻松应对。
RTF 低至 0.025,推理速度达实时音频的 40 倍,高并发场景轻松应对。
🎛️专业级精细控制
支持
[laughter]等非语言符号插入拼音/音素级发音校正
语速、时长、降噪、引导系数等多维参数独立调节
🔄三种模式 · 灵活适配
clone克隆模式|design设计模式|auto自动选声,按需切换,场景全覆盖。🧠 技术内核亮点
▸扩散语言模型架构
融合扩散模型的高质量生成能力 + 语言模型的强大泛化性,结构简洁,扩展性强。
融合扩散模型的高质量生成能力 + 语言模型的强大泛化性,结构简洁,扩展性强。
▸真·零样本泛化
无需目标说话人训练数据,真正实现「见音识人,听文发声」。
无需目标说话人训练数据,真正实现「见音识人,听文发声」。
▸多语言统一建模
单一模型处理 600+ 语种,告别多模型切换的部署复杂度。
单一模型处理 600+ 语种,告别多模型切换的部署复杂度。
▸ASR 智能辅助
集成 Whisper 等 ASR 模型,参考文本自动转录,降低使用门槛。
集成 Whisper 等 ASR 模型,参考文本自动转录,降低使用门槛。
▸全平台兼容
支持 CUDA / MPS / CPU,Apple Silicon 用户开箱即用。
支持 CUDA / MPS / CPU,Apple Silicon 用户开箱即用。
🎯 典型应用场景
🎬内容创作
短视频配音|有声书演播|播客多角色生成,效率与表现力兼得。
短视频配音|有声书演播|播客多角色生成,效率与表现力兼得。
🌐国际化产品
多语言客服语音|跨境教育内容本地化,一模型覆盖全球市场。
多语言客服语音|跨境教育内容本地化,一模型覆盖全球市场。
🎮游戏/虚拟人
NPC 动态语音生成|虚拟主播个性化声线定制,沉浸感再升级。
NPC 动态语音生成|虚拟主播个性化声线定制,沉浸感再升级。
♿无障碍辅助
为视障用户生成个性化语音反馈,科技传递温度。
为视障用户生成个性化语音反馈,科技传递温度。
🔐隐私保护场景
本地部署克隆,避免云端语音数据泄露,安全可控。
本地部署克隆,避免云端语音数据泄露,安全可控。
🧪科研与实验
多语言语音合成研究|说话人自适应|语音编辑算法验证,开源赋能学术。
多语言语音合成研究|说话人自适应|语音编辑算法验证,开源赋能学术。
🎛️ 交互模式详解
🔸声音克隆模式
① 上传 3–10 秒参考音频
② (可选)填写参考文本,或交由模型自动识别
③ 输入待合成内容,选择语种(或自动检测)
④ 一键生成,相同音色,全新内容
① 上传 3–10 秒参考音频
② (可选)填写参考文本,或交由模型自动识别
③ 输入待合成内容,选择语种(或自动检测)
④ 一键生成,相同音色,全新内容
🔸声音设计模式
① 无需参考音频
② 组合选择声音属性(性别/年龄/音调/口音/方言等)
③ 输入文本,生成符合描述的理想声音
① 无需参考音频
② 组合选择声音属性(性别/年龄/音调/口音/方言等)
③ 输入文本,生成符合描述的理想声音
🔸高级参数面板
语速 / 时长:独立调节,时长设置优先
推理步数:4–64 步可调,平衡速度与质量
引导系数(CFG):控制生成结果与提示词的贴合程度
降噪开关:自动去除背景噪声与底噪
前后处理:自动裁剪静音、补充标点,输出更纯净
💡剑二十七说
OmniVoice 不仅是一个工具,更是内容创作者、开发者与研究者的「声音画笔」。
600+ 语种 × 零样本克隆 × 极速推理,让每一段文字,都能找到最契合的声音表达。专注内容深度,传递品牌价值。探索内容创作的无限可能。




整合包说明
1 这个语音合成工具给我的第一感觉 就是快,生成语音速度超级快
2 英伟达8G显卡就可以愉快玩耍,但是我估计6G应该也可以
3 生成的语音文件自动保存在output
4 如果解压失败,请用winrar 解压 如果不会 请看教程
随便生成几个你们听听
20260407 更新记录
1 增加用qwen模型分析文本内容,自动加入对应的语气标签
2 修正部分bug