应该是 开源界 音色 最稳定 的语音合成和克隆模型了,支持预训练音色合成、自然语言控制、3秒极速复刻和跨语种复刻。

官方部署方式比较复杂,错误较多,我这里进行了整理和优化,支持GPU和CPU,方便大家使用。

CosyVoice 开源仓库: CosyVoice

效果展示

自然语言控制

image

3秒极速复刻

image

使用方法

均支持 GPU 和 CPU

第一次启动过程可能会有点长,需要从魔搭下载3个模型

Windows 一键启动包

百度网盘: https://pan.baidu.com/s/1UTuRKPQ9nuQk69qxQzdL4A?pwd=j2ei 提取码: j2ei

注意:文件夹中不能有 中文特殊字符空格,否则可能会启动失败

Docker部署🐳

确保已经安装了Docker软件,没有的话,从官网下载安装 https://www.docker.com/products/docker-desktop/

复制以下代码到终端运行即可

CPU 版本

1
2
curl -fsSL https://harryai.cc/cosyvoice/docker-compose.yml -o docker-compose.yml
docker-compose up

GPU 版本

1
2
curl -fsSL https://harryai.cc/cosyvoice/docker-compose-gpu.yml -o docker-compose.yml
docker-compose up

docker 启动后,访问 http://127.0.0.1:50000/