开源 CosyVoice v20250229整合包一款AI人工智能多语言语音生成模型文字生成语音工具附效果演示

2025-02-28 软件 6482

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型，旨在提升人类与大型语言模型（LLMs）之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一，专注于高质量的语音合成，能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍：

一、项目背景与目的

随着人工智能技术的不断发展，语音交互已成为人机交互的重要方式之一。CosyVoice的开源旨在通过提供先进的语音生成技术，促进语音处理领域的研究与应用，特别是在多语言支持、音色和情感控制等方面，为用户带来更加自然、流畅的语音交互体验。

二、模型特点与功能

多语言支持：CosyVoice经过超过15万小时的数据训练，支持中文、英语、日语、粤语和韩语等多种语言的语音生成，能够满足不同语言环境下的语音交互需求。

音色克隆：支持one-shot音色克隆技术，仅需3~10秒的原始音频即可生成模拟音色，包括韵律、情感等细节，实现高度还原的语音效果。

情感与韵律控制：能够对生成的语音进行细粒度的情感、语调、语速和音调控制，使合成的语音更加丰富和具有表现力。用户可以通过富文本或自然语言的形式，对生成语音的情感和韵律进行精细调整。

零样本学习与跨语言合成：具备零样本学习的能力，能够通过一个简短的参考语音样本复制任意声音，实现内容一致性和说话者相似度的高度还原。同时，支持跨语言语音合成，能够将语音克隆到不同的语言中。

指令遵循：支持通过指令文本控制语音输出的各个方面，如说话人身份、说话风格和副语言特征等，提高语音生成的灵活性和个性化。

三、模型架构与训练

CosyVoice模型采用了先进的深度学习技术，通过大量的语音数据进行训练和优化。研究团队提供了多个版本的模型，包括基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT以及支持细粒度控制的模型CosyVoice-300M-Instruct等，以满足不同场景下的使用需求。

四、应用场景

CosyVoice的开源为多个领域的应用提供了强大的技术支持，包括但不限于：

陪伴场景：利用复刻的家人声音提供个性化陪伴，用于智能助手和车载导航语音等。

教育场景：使用复刻老师的声音，加强师生互动，丰富教学视频和课件的内容。

音视频产业：通过复刻主播的声音，方便后期补录、配音等应用场景，提高音视频的制作效率。

智能客服：借助复刻的客户经理声音，提供语音服务，如客户回访和市场营销电话等。

五、项目地址与资源

GitHub项目地址：https://github.com/FunAudioLLM/CosyVoice

在线体验：用户可以在ModelScope平台上直接体验CosyVoice模型的语音生成效果。

六、总结

CosyVoice作为一款功能强大的多语言语音生成模型，其开源为语音处理领域的研究与应用带来了新的机遇。通过提供高质量的语音合成技术和丰富的功能特性，CosyVoice将进一步提升人类与大型语言模型之间的自然语音交互体验。

我顺手生成了几个比较长的语音你们听听

20250229更新记录

1 增加N个预训练音色

2 增加N个参考音频

3 修改ttsfrd 改成 WeTextProcessing处理文本

4 采用最新的0.5B模型文件

请勿用于将该工具任何非法行为，一切后果自负。

点击查看

下载地址

夸克网盘百度网盘

下载有疑问看下这里

工具绿色软件开源人工智能 AI 语音工具 Tag

AltSnap v1.64 一个用于增强Windows系统窗口操作的开源工具

Light Image Resizer v7.2.0.82 小巧批量图片处理工具

我要评论：

◎欢迎参与讨论，请自觉遵守国家法律法规。

已有 26 条评论

感谢

2025-03-07

如果遇到断网的情况运行，会出现以下提示，不知如何解决，谢谢！出错提示信息如下：
failed to import ttsfrd, use WeTextProcessing instead
WARNING:urllib3.connectionpool:Retrying (Retry(total=1, connect=1, read=2, redirect=None, status=None)) after connection broken by 'NameResolutionError(": Failed to resolve 'www.modelscope.cn' ([Errno 11001] getaddrinfo failed)")': /api/v1/models/iic/CosyVoice2-0.5B/revisions
WARNING:urllib3.connectionpool:Retrying (Retry(total=0, connect=0, read=2, redirect=None, status=None)) after connection broken by 'NameResolutionError(": Failed to resolve 'www.modelscope.cn' ([Errno 11001] getaddrinfo failed)")': /api/v1/models/iic/CosyVoice2-0.5B/revisions
Traceback (most recent call last):
File "E:\CosyVoice2\jian27\lib\site-packages\urllib3\connection.py", line 198, in _new_conn
sock = connection.create_connection(
File "E:\CosyVoice2\jian27\lib\site-packages\urllib3\util\connection.py", line 60, in create_connection
for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):
File "E:\CosyVoice2\jian27\lib\socket.py", line 967, in getaddrinfo
for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
socket.gaierror: [Errno 11001] getaddrinfo failed

回复
1. 剑心
  
  2025-03-07
  
  不断网即可，等我什么时候心血来潮的时候去取消这个判断
  
  回复
小巧向书本

2025-03-05

请问api.py如何运行？

回复
1. 剑心
  
  2025-03-06
  
  我没用需要用到这个没有去弄
  
  回复
虚心猫咪

2025-03-01

无法访问此页面
127.0.0.1 拒绝连接。8080端口可以改吗

回复
1. 虚心猫咪
  
  2025-03-01
  
  果然刷新就行了
  
  回复
2. 剑心
  
  2025-03-01
  
  等程序运行好了刷新那个即可，端口默认可以改
  
  回复
碧海潮生

2025-03-01

太牛了！效果很棒不过似乎有个bug，3s急速复刻挺好用，但是训练好的音色点击保存后，重启使用，在预训练音色里能看到名字，但生成音频却不生效，出来的音频还是原先里面自带的音色。也就是说，训练的音色无法成功保存再次使用。

回复
1. 会撒娇保卫毛豆
  
  2025-03-24
  
  这个版本的output.pt路径有问题。临时解决方案：进voices文件夹，删除output.pt，然后再创建一个到上级目录output.pt文件的符号链接（即管理员权限执行“del output.pt & mklink output.pt ..\output.pt”命令）。
  
  回复
  1. 剑心
    
    2025-03-24
    
    那个output 是我测试的时候临时保存的一个音色，可以直接删了
    
    回复
    
    会撒娇保卫毛豆
    
    2025-03-24
    
    只是删除那个的话，会报错，提示文件找不到。（No such file or directory: 'E:\\fakepath/voices/output.pt'）
    
    回复
2. 剑心
  
  2025-03-01
  
  那只能等我什么时候心血来潮的时候去折腾了
  
  回复
温柔给雪糕

2025-03-01

大佬，网页显示页面加载错误，然后命令提示符显示To create a public link, set `share=True` in `launch()`.
这是什么情况呀

回复
1. 剑心
  
  2025-03-01
  
  出现这个提示的时候你刷新下那个自动打开的网页试试？
  
  回复
  1. 温柔给雪糕
    
    2025-03-01
    
    果然，打死也没想到刷新就行了，我又给cuda重装一遍。谢谢大佬
    
    回复
    
    剑心
    
    2025-03-01
    
    你应该去补习下初中的英语
    
    回复
    
    温柔给雪糕
    
    2025-03-01
    
    别闹了大佬，我现在给我孩辅导三年级英语都费劲。
    
    回复
早晨寂寞

2024-09-19

剑哥，对显卡有要求么？

回复
1. 剑心
  
  2024-09-19
  
  英伟达显卡
  
  回复
认真踢烤鸡

2024-09-15

CosyVoice-win\py311\Lib\site-packages\torch\amp\autocast_mode.py:250: UserWarning: User provided device_type of 'cuda', but CUDA is not available. Disabling
warnings.warn(
这是错误吗，后面不动了，咋解决？

回复
1. 剑心
  
  2024-09-16
  
  安装好cuda
  
  回复
手机背后

2024-09-10

这个效果一顿一顿的！听着好难受！

回复
三爷

2024-08-21

迅雷网盘挂了

回复
1. 剑心
  
  2024-08-21
  
  迅雷说这个开源整合包违规了我也没办法了
  
  回复
三爷

2024-08-21

谢谢大师分享！

回复
月光俊逸

2024-07-24

谢谢大师分享！

回复