CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,旨在提升人类与大型语言模型(LLMs)之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一,专注于高质量的语音合成,能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍:
一、项目背景与目的
随着人工智能技术的不断发展,语音交互已成为人机交互的重要方式之一。CosyVoice的开源旨在通过提供先进的语音生成技术,促进语音处理领域的研究与应用,特别是在多语言支持、音色和情感控制等方面,为用户带来更加自然、流畅的语音交互体验。
二、模型特点与功能
多语言支持:CosyVoice经过超过15万小时的数据训练,支持中文、英语、日语、粤语和韩语等多种语言的语音生成,能够满足不同语言环境下的语音交互需求。
音色克隆:支持one-shot音色克隆技术,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节,实现高度还原的语音效果。
情感与韵律控制:能够对生成的语音进行细粒度的情感、语调、语速和音调控制,使合成的语音更加丰富和具有表现力。用户可以通过富文本或自然语言的形式,对生成语音的情感和韵律进行精细调整。
零样本学习与跨语言合成:具备零样本学习的能力,能够通过一个简短的参考语音样本复制任意声音,实现内容一致性和说话者相似度的高度还原。同时,支持跨语言语音合成,能够将语音克隆到不同的语言中。
指令遵循:支持通过指令文本控制语音输出的各个方面,如说话人身份、说话风格和副语言特征等,提高语音生成的灵活性和个性化。
三、模型架构与训练
CosyVoice模型采用了先进的深度学习技术,通过大量的语音数据进行训练和优化。研究团队提供了多个版本的模型,包括基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT以及支持细粒度控制的模型CosyVoice-300M-Instruct等,以满足不同场景下的使用需求。
四、应用场景
CosyVoice的开源为多个领域的应用提供了强大的技术支持,包括但不限于:
陪伴场景:利用复刻的家人声音提供个性化陪伴,用于智能助手和车载导航语音等。
教育场景:使用复刻老师的声音,加强师生互动,丰富教学视频和课件的内容。
音视频产业:通过复刻主播的声音,方便后期补录、配音等应用场景,提高音视频的制作效率。
智能客服:借助复刻的客户经理声音,提供语音服务,如客户回访和市场营销电话等。
五、项目地址与资源
GitHub项目地址:https://github.com/FunAudioLLM/CosyVoice
在线体验:用户可以在ModelScope平台上直接体验CosyVoice模型的语音生成效果。
六、总结
CosyVoice作为一款功能强大的多语言语音生成模型,其开源为语音处理领域的研究与应用带来了新的机遇。通过提供高质量的语音合成技术和丰富的功能特性,CosyVoice将进一步提升人类与大型语言模型之间的自然语音交互体验。
我顺手生成了几个比较长的语音 你们听听
20250229更新记录
1 增加N个预训练音色
2 增加N个参考音频
3 修改ttsfrd 改成 WeTextProcessing处理文本
4 采用最新的0.5B模型文件
请勿用于将该工具任何非法行为,一切后果自负。
如果遇到断网的情况运行,会出现以下提示,不知如何解决,谢谢!出错提示信息如下:
failed to import ttsfrd, use WeTextProcessing instead
WARNING:urllib3.connectionpool:Retrying (Retry(total=1, connect=1, read=2, redirect=None, status=None)) after connection broken by 'NameResolutionError(": Failed to resolve 'www.modelscope.cn' ([Errno 11001] getaddrinfo failed)")': /api/v1/models/iic/CosyVoice2-0.5B/revisions
WARNING:urllib3.connectionpool:Retrying (Retry(total=0, connect=0, read=2, redirect=None, status=None)) after connection broken by 'NameResolutionError(": Failed to resolve 'www.modelscope.cn' ([Errno 11001] getaddrinfo failed)")': /api/v1/models/iic/CosyVoice2-0.5B/revisions
Traceback (most recent call last):
File "E:\CosyVoice2\jian27\lib\site-packages\urllib3\connection.py", line 198, in _new_conn
sock = connection.create_connection(
File "E:\CosyVoice2\jian27\lib\site-packages\urllib3\util\connection.py", line 60, in create_connection
for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):
File "E:\CosyVoice2\jian27\lib\socket.py", line 967, in getaddrinfo
for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
socket.gaierror: [Errno 11001] getaddrinfo failed
不断网即可,等我什么时候心血来潮的时候 去取消这个判断
请问api.py如何运行?
我没用需要用到这个 没有去弄
无法访问此页面
127.0.0.1 拒绝连接。8080端口可以改吗
果然 刷新就行了
等程序运行好了 刷新那个即可,端口默认可以改
太牛了!效果很棒 不过似乎有个bug,3s急速复刻挺好用,但是训练好的音色点击保存后,重启使用,在预训练音色里能看到名字,但生成音频却不生效,出来的音频还是原先里面自带的音色。 也就是说,训练的音色无法成功保存再次使用。
这个版本的output.pt路径有问题。临时解决方案:进voices文件夹,删除output.pt,然后再创建一个到上级目录output.pt文件的符号链接(即管理员权限执行“del output.pt & mklink output.pt ..\output.pt”命令)。
那个output 是我测试的时候 临时保存的一个音色,可以直接删了
只是删除那个的话,会报错,提示文件找不到。(No such file or directory: 'E:\\fakepath/voices/output.pt')
那只能等我什么时候心血来潮的时候去折腾了
大佬,网页显示页面加载错误,然后命令提示符显示To create a public link, set `share=True` in `launch()`.
这是什么情况呀
出现这个提示的时候 你刷新下那个自动打开的网页试试?
果然,打死也没想到刷新就行了,我又给cuda重装一遍。谢谢大佬
你应该去补习下初中的英语
别闹了大佬,我现在给我孩辅导三年级英语都费劲。
剑哥,对显卡有要求么?
英伟达显卡
CosyVoice-win\py311\Lib\site-packages\torch\amp\autocast_mode.py:250: UserWarning: User provided device_type of 'cuda', but CUDA is not available. Disabling
warnings.warn(
这是错误吗,后面不动了,咋解决?
安装好cuda
这个效果一顿一顿的!听着好难受!
迅雷网盘挂了
迅雷说这个开源整合包违规了 我也没办法了
谢谢大师分享!
谢谢大师分享!