最近都在留意这个文字转语音工具,无意发现了这个开源项目,效果相当不错,所以顺手就做成了整合包,本身这个项目是支持N卡的,但是因为我没有N卡,所以就只能做成了用CPU跑。。。如果你有N卡,想高效率去生成语音的话可以去开源项目那里看看。
群里有小伙伴说这个能否做小说推文,我自己测试了下完全可以,而且我感觉比某音某手上面的小说推文的语音好多了,文末会有语音演示 你们听下就知道了。
大概有几百个音色可以选,我没有去做训练。演示语音都是现有音色做的。如果你输出的是中文,选了老外的音色说话感觉好奇怪的,你们可以试试。
下面是这个项目的一些介绍
Bark-GUI是一款开源的具有 Gradio 网络用户界面的文本触发的生成音频模型,专为Windows用户设计,但不限于此种操作系统。它基于应用程序Bark并增添了一些额外的功能。
主要特性和优势
网络图形用户界面和服务器:Bark-GUI为用户提供了一个易于操作和理解的网页用户界面,所有操作都可以通过这个UI界面来完成,包括语音合成,语音更换等等。
创造大篇幅文本的能力:Bark-GUI能够分块地创建非常大的文本段落,并将各个部分组合成一个最终的结果。
语音克隆功能:Bark-GUI提供了语音克隆功能,用户可以输入自己的语音样本,然后得到一个相应的讲述者。
语音更换功能:Bark-GUI允许用户在音频中替换语音,将当前的讲述者替换为用户所选择的讲述者。
灵活的模型选择:Bark-GUI允许用户轻松选择小型或大型模型,并增加了一些额外的命令行参数以获取更大的灵活性。
支持多种GPU和CPU运行方式:Bark-GUI可以利用NVIDIA/Apple GPU执行任务,或者强制使用CPU执行。
支持 SSML 输入方式:Bark-GUI 可以接受SSML输入,使得固定语音对话成为可能。
嵌入元数据:Bark-GUI会在生成的WAV文件的ID3标签中添加生成的元数据。
Stable Seed and Logging:Bark-Gui有稳定的种子和日志记录,提供了更稳定的运行效果和更容易复制结果的环境。
更为方便的多种环境适配:从Windows到Linux,都有对应的方便的运行方式。例如,在Windows上,你可以通过运行从安装程序得到的windows_run.bat或使用StartBark.bat执行Bark。在Linux上,你只需要执行python webui.py以及可选的命令行参数。
总结
Bark-GUI项目是文本转语音应用领域的一颗明星,它提供了非常丰富又实用的功能,比如能处理大篇幅的文本,语音克隆与更换,多模型选择,支持SSML等。并且,它还提供了友好的图形用户界面,并且有活跃的用户社区,频繁的代码更新,让应用更加稳定,使用更加方便。总的来说,Bark-GUI是构建高质量的文本到语音生成模型的一个强有力的工具。
下面是一些语音演示 你们听下效果
如果提示缺乏某个模型 可以自己去这里下载
https://hf-mirror.com/suno/bark/tree/main
智能化
如果要改成gpu跑应该是改哪里的代码
你是什么显卡?
n卡
那不需要改什么。你直接下载N卡版就好了
有其他网盘吗,这两个太小