开源 CosyVoice v20250229整合包 一款AI人工智能 多语言语音生成模型 文字生成语音工具 附效果演示

软件 26 6482

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,旨在提升人类与大型语言模型(LLMs)之间的自然语音交互体验。该项目作为FunAudioLLM框架中的核心模型之一,专注于高质量的语音合成,能够生成自然且逼真的语音。以下是对CosyVoice开源项目的详细介绍:

一、项目背景与目的

随着人工智能技术的不断发展,语音交互已成为人机交互的重要方式之一。CosyVoice的开源旨在通过提供先进的语音生成技术,促进语音处理领域的研究与应用,特别是在多语言支持、音色和情感控制等方面,为用户带来更加自然、流畅的语音交互体验。

二、模型特点与功能

多语言支持:CosyVoice经过超过15万小时的数据训练,支持中文、英语、日语、粤语和韩语等多种语言的语音生成,能够满足不同语言环境下的语音交互需求。

音色克隆:支持one-shot音色克隆技术,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节,实现高度还原的语音效果。

情感与韵律控制:能够对生成的语音进行细粒度的情感、语调、语速和音调控制,使合成的语音更加丰富和具有表现力。用户可以通过富文本或自然语言的形式,对生成语音的情感和韵律进行精细调整。

零样本学习与跨语言合成:具备零样本学习的能力,能够通过一个简短的参考语音样本复制任意声音,实现内容一致性和说话者相似度的高度还原。同时,支持跨语言语音合成,能够将语音克隆到不同的语言中。

指令遵循:支持通过指令文本控制语音输出的各个方面,如说话人身份、说话风格和副语言特征等,提高语音生成的灵活性和个性化。

三、模型架构与训练

CosyVoice模型采用了先进的深度学习技术,通过大量的语音数据进行训练和优化。研究团队提供了多个版本的模型,包括基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT以及支持细粒度控制的模型CosyVoice-300M-Instruct等,以满足不同场景下的使用需求。

四、应用场景

CosyVoice的开源为多个领域的应用提供了强大的技术支持,包括但不限于:

陪伴场景:利用复刻的家人声音提供个性化陪伴,用于智能助手和车载导航语音等。

教育场景:使用复刻老师的声音,加强师生互动,丰富教学视频和课件的内容。

音视频产业:通过复刻主播的声音,方便后期补录、配音等应用场景,提高音视频的制作效率。

智能客服:借助复刻的客户经理声音,提供语音服务,如客户回访和市场营销电话等。

五、项目地址与资源

GitHub项目地址:https://github.com/FunAudioLLM/CosyVoice

在线体验:用户可以在ModelScope平台上直接体验CosyVoice模型的语音生成效果。

六、总结

CosyVoice作为一款功能强大的多语言语音生成模型,其开源为语音处理领域的研究与应用带来了新的机遇。通过提供高质量的语音合成技术和丰富的功能特性,CosyVoice将进一步提升人类与大型语言模型之间的自然语音交互体验。


2025-02-28_22-52-50.png

我顺手生成了几个比较长的语音 你们听听

20250229更新记录

1 增加N个预训练音色

2 增加N个参考音频

3 修改ttsfrd 改成 WeTextProcessing处理文本

4 采用最新的0.5B模型文件

请勿用于将该工具任何非法行为,一切后果自负。

点击查看

下载地址
夸克网盘 百度网盘

下载有疑问看下这里

相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 26 条评论

  1. 感谢 感谢

    如果遇到断网的情况运行,会出现以下提示,不知如何解决,谢谢!出错提示信息如下:
    failed to import ttsfrd, use WeTextProcessing instead
    WARNING:urllib3.connectionpool:Retrying (Retry(total=1, connect=1, read=2, redirect=None, status=None)) after connection broken by 'NameResolutionError(": Failed to resolve 'www.modelscope.cn' ([Errno 11001] getaddrinfo failed)")': /api/v1/models/iic/CosyVoice2-0.5B/revisions
    WARNING:urllib3.connectionpool:Retrying (Retry(total=0, connect=0, read=2, redirect=None, status=None)) after connection broken by 'NameResolutionError(": Failed to resolve 'www.modelscope.cn' ([Errno 11001] getaddrinfo failed)")': /api/v1/models/iic/CosyVoice2-0.5B/revisions
    Traceback (most recent call last):
    File "E:\CosyVoice2\jian27\lib\site-packages\urllib3\connection.py", line 198, in _new_conn
    sock = connection.create_connection(
    File "E:\CosyVoice2\jian27\lib\site-packages\urllib3\util\connection.py", line 60, in create_connection
    for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):
    File "E:\CosyVoice2\jian27\lib\socket.py", line 967, in getaddrinfo
    for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
    socket.gaierror: [Errno 11001] getaddrinfo failed

    1. 剑心 剑心

      不断网即可,等我什么时候心血来潮的时候 去取消这个判断

  2. 小巧向书本 小巧向书本

    请问api.py如何运行?

    1. 剑心 剑心

      我没用需要用到这个 没有去弄

  3. 虚心猫咪 虚心猫咪

    无法访问此页面
    127.0.0.1 拒绝连接。8080端口可以改吗

    1. 虚心猫咪 虚心猫咪

      果然 刷新就行了

    2. 剑心 剑心

      等程序运行好了 刷新那个即可,端口默认可以改

  4. 碧海潮生 碧海潮生

    太牛了!效果很棒 不过似乎有个bug,3s急速复刻挺好用,但是训练好的音色点击保存后,重启使用,在预训练音色里能看到名字,但生成音频却不生效,出来的音频还是原先里面自带的音色。 也就是说,训练的音色无法成功保存再次使用。

    1. 会撒娇保卫毛豆 会撒娇保卫毛豆

      这个版本的output.pt路径有问题。临时解决方案:进voices文件夹,删除output.pt,然后再创建一个到上级目录output.pt文件的符号链接(即管理员权限执行“del output.pt & mklink output.pt ..\output.pt”命令)。

      1. 剑心 剑心

        那个output 是我测试的时候 临时保存的一个音色,可以直接删了

        1. 会撒娇保卫毛豆 会撒娇保卫毛豆

          只是删除那个的话,会报错,提示文件找不到。(No such file or directory: 'E:\\fakepath/voices/output.pt')

    2. 剑心 剑心

      那只能等我什么时候心血来潮的时候去折腾了

  5. 温柔给雪糕 温柔给雪糕

    大佬,网页显示页面加载错误,然后命令提示符显示To create a public link, set `share=True` in `launch()`.
    这是什么情况呀

    1. 剑心 剑心

      出现这个提示的时候 你刷新下那个自动打开的网页试试?

      1. 温柔给雪糕 温柔给雪糕

        果然,打死也没想到刷新就行了,我又给cuda重装一遍。谢谢大佬

        1. 剑心 剑心

          你应该去补习下初中的英语

          1. 温柔给雪糕 温柔给雪糕

            别闹了大佬,我现在给我孩辅导三年级英语都费劲。

  6. 早晨寂寞 早晨寂寞

    剑哥,对显卡有要求么?

    1. 剑心 剑心

      英伟达显卡

  7. 认真踢烤鸡 认真踢烤鸡

    CosyVoice-win\py311\Lib\site-packages\torch\amp\autocast_mode.py:250: UserWarning: User provided device_type of 'cuda', but CUDA is not available. Disabling
    warnings.warn(
    这是错误吗,后面不动了,咋解决?

    1. 剑心 剑心

      安装好cuda

  8. 手机背后 手机背后

    这个效果一顿一顿的!听着好难受!

  9. 三爷 三爷

    迅雷网盘挂了

    1. 剑心 剑心

      迅雷说这个开源整合包违规了 我也没办法了

  10. 三爷 三爷

    谢谢大师分享!

  11. 月光俊逸 月光俊逸

    谢谢大师分享!

只显示最新的15条留言