自媒体人的AI音乐工坊:打字描述,自动生成专属BGM stable-audio-3 AI音乐自动生成一键整合包 v20260524

AI 4183
Stable Audio 3 是 Stability AI(就是出 Stable Diffusion 那家公司)做的一款AI 音乐/音效生成工具。你只需要打字描述,它就能帮你生成一段音频——可以是一段背景音乐、一个音效、甚至是一首完整的歌。
这个增强版把原来的英文界面全部翻译成了中文,还加了一些方便国内用户使用的功能。

它能做什么?举几个例子

你想做的你输入的它给你的
做短视频需要背景音乐"一段轻快的电子音乐,适合旅行vlog"一段 30 秒的 BGM
游戏开发需要音效"科幻风格的激光枪射击声"一个 wav 音效文件
做播客需要片头音乐"神秘氛围的钢琴曲,带一点悬疑感"一段原创音乐
有段音乐想改风格上传你的音频 + "改成爵士风格"风格变了的版本
音乐中间某段不满意上传音频,标记 10~20 秒只替换那 10 秒,其他保留

和原版比,这个增强版多了什么?

1. 全中文界面

原版全是英文,这个版本所有按钮、滑块、提示文字都翻译成了中文,不用一边生成一边查词典。

2. 模型控制台 — 不用重启就能换配置

原版如果你发现模型选错了、或者想换个 LoRA(一种微调模型),必须关掉程序重新输入命令。
这个版本在网页顶部加了一个「🔧 模型控制台」,直接在网页里点几下就能:
  • 换别的模型(比如从 medium 换成 small)
  • 开关半精度(省显存/保质量)
  • 加载别的 LoRA 风格包
  • 内存不够时点「卸载模型」释放显存

3. 自动保存文件

原版生成完音频,过 30 秒就自动删了,你只能赶紧下载。
这个版本会自动把音频存到 output 文件夹,文件名是日期+随机码,比如 20250524_183022_a7k3m9.wav,永久保留,不怕丢失。

4. 双击即用,不用记命令

页面长什么样?怎么用?

打开网页后,主要分两大块:

左边 — 调参数的地方

从上到下依次是:
  • 提示词框:写你想要什么音乐(越具体越好,可以写风格、乐器、BPM、情绪)
  • 反向提示词框:写你不想要什么(比如 "杂音、低质量")
  • 总时长:要生成多少秒
  • 采样步数:一般不用动,步数越多越精细但越慢
  • CFG 强度:AI 听你的话的程度,默认 7 左右就行
  • 随机种子:填 -1 就是每次随机,填固定数字可以复现同样的结果
下面还有几个折叠面板,点一下展开:
  • 采样器参数:进阶玩家调细节用的,新手可以不管
  • 输出参数:改输出格式(wav/mp3/flac)、开关自动播放/无限电台
  • 初始音频:做「音频编辑」模式时上传参考音频
  • 音频修复:做「修补/续写」模式时上传原音频并标记要改的部分

右边 — 看结果的地方

  • 输出音频:生成好的音乐在这里播放
  • 输出频谱图:音频的波形可视化图
  • 保存路径:告诉你文件存到 output/2025xxxx_xxxxxx_xxxx.wav

三种玩法,对号入座

玩法一:凭空生成(文生音频)

什么都不上传,直接在提示词里写你要什么,点「生成音频」
适合:做 BGM、音效、灵感创作。

玩法二:改风格(音频编辑)

「初始音频」面板里上传一段你已有的音频,写提示词描述你想改成什么样。
比如上传一段钢琴曲,提示词写 "改成电子合成器风格"。
适合:给已有素材换风格、做 Remix。

玩法三:修修补补(音频修复)

「音频修复 / 续写」面板里上传音频,用滑块标出哪几秒要重新生成。
比如一首歌 2:00~2:10 有个爆音,只标记这 10 秒,AI 只修这一段,其他地方完全不动。
适合:局部修改、续写结尾。

文件保存到哪里?

程序运行目录下会自动创建一个 output 文件夹,所有生成的音频都存在这里

整合包说明:

1 生成音乐速度极快,120秒的音乐 大概3秒即可生成

2 英伟达8G显卡即可运行,甚至更低的也可以试试,古老的显卡可能不会支持

3 生成的音乐效果还不错

4 人气高就会继续开发

点击查看

下载地址
夸克网盘

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。