分享
喂饭级SO-VITS-SVC教程,轻松生成AI歌曲
输入“/”快速插入内容
喂饭级SO-VITS-SVC教程,轻松生成AI歌曲
❤️
前言:爆火的AI孙燕姿就是用的SO-VITS-SVC
背景
so-vits-svc是基于VITS的开源项目,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型
不过千万别被chatgpt骗了,生生把一个语言模型说成图像分类模型(version:3.5)
gpt版本解释,千万别被误导
应用so-vits-svc快速生成AI歌曲,仓库地址:
https://github.com/svc-develop-team/so-vits-svc.git
github.com/svc-develop-team/so-vits-svc
目前该文档使用两个版本号系统,分别是 So-VITS 官方的版本号,以及本整合包的版本号。请注意不要混淆。
So-VITS 官方版本号目前为
4.1
,其下另有两个分支:
4.1-Stable
以及
4.1-Latest
.
⏩
4.1-Stable
是官方的稳定版本,
4.1-Latest
中包含一些尚在开发的新特性。由于后者可能存在一些 BUG,因此本整合包将仅同步更新
4.1-Stable
的内容。
硬件需求
N卡,建议GPU达到GTX 3080显存8G以上。A卡应该是跑不了,只能通过CPU去跑了(AMD,no!)
so-vits-svc安装
在你自定义的目录下使
用Git命令克隆项目:
代码块
Plain Text
git clone https://github.com/svc-develop-team/so-vits-svc.git
没有梯子的使用下面这个下载
完整整合包 (v2.3.4)
百度网盘:
百度网盘 请输入提取码
pan.baidu.com/s/12u_LDyb5KSOfvjJ9LVwCIQ?pwd=g8n4
提取码:g8n4
增量更新 (v2.3.4)
⚠️v1.
x 版本的整合包无法通过增量更新更新至 v2,请参考
这里
了解更新方式
百度网盘:
https://pan.baidu.com/s/1N-47gaAFE1Ewd4hrOQEu8A?pwd=yryv
提取码:yryv
底模DLC
预训练模型(底模)可以大大减少小数据集的训练难度。整合包内已经自带了底模,并会在训练时自动加载。但是目前
Vec768l12
编码器有一个更强的底模。你可以自行下载并替换原来的底模。
1.
将下载的底模分别改名为
G_0.pth
和
D_0.pth
2.
替换到
pre_trained_model/768l12
目录下同名文件
下载地址:
https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k
huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k
在开始之前
为了避免在之后的使用中出现各种意料之外的问题,请务必对照下面的 Checklist 检查本机环境。
关闭全局梯子 / 绕过局域网
确保本机正常连接互联网
使用推荐的浏览器(✅Chrome / Edge / Firefox)
关闭浏览器自带的网页翻译功能
关闭所有第三方杀毒软件 / 安全卫士等
部分浏览器(尤其是 Edge)会出现 WebUI 打开后无法正常工作的现象。如果遇到卡死/无法点击交互等现象,请尝试更换为上述推荐的其他浏览器。
本地搭建