喂饭级SO-VITS-SVC教程，轻松生成AI歌曲

❤️

前言：爆火的AI孙燕姿就是用的SO-VITS-SVC

背景

so-vits-svc是基于VITS的开源项目，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理（variational inference）、标准化流（normalizing flows）和对抗训练的高表现力语音合成模型​

不过千万别被chatgpt骗了，生生把一个语言模型说成图像分类模型（version:3.5）​

common.docs_name - LarkCCM_Docs_Menu_Image

gpt版本解释，千万别被误导

应用so-vits-svc快速生成AI歌曲，仓库地址：

https://github.com/svc-develop-team/so-vits-svc.gitgithub.com/svc-develop-team/so-vits-svc

目前该文档使用两个版本号系统，分别是 So-VITS 官方的版本号，以及本整合包的版本号。请注意不要混淆。​

So-VITS 官方版本号目前为4.1，其下另有两个分支：4.1-Stable以及4.1-Latest.​

⏩4.1-Stable是官方的稳定版本，4.1-Latest中包含一些尚在开发的新特性。由于后者可能存在一些 BUG，因此本整合包将仅同步更新 4.1-Stable的内容。​

硬件需求

N卡，建议GPU达到GTX 3080显存8G以上。A卡应该是跑不了，只能通过CPU去跑了（AMD,no!）​

so-vits-svc安装

在你自定义的目录下使用Git命令克隆项目：

代码块

git clone https://github.com/svc-develop-team/so-vits-svc.git

没有梯子的使用下面这个下载

完整整合包 (v2.3.4)

百度网盘：

百度网盘请输入提取码pan.baidu.com/s/12u_LDyb5KSOfvjJ9LVwCIQ?pwd=g8n4

提取码：g8n4

增量更新 (v2.3.4)

⚠️v1.x 版本的整合包无法通过增量更新更新至 v2，请参考这里了解更新方式

百度网盘：https://pan.baidu.com/s/1N-47gaAFE1Ewd4hrOQEu8A?pwd=yryv提取码：yryv

底模DLC

预训练模型（底模）可以大大减少小数据集的训练难度。整合包内已经自带了底模，并会在训练时自动加载。但是目前Vec768l12编码器有一个更强的底模。你可以自行下载并替换原来的底模。​

1.
将下载的底模分别改名为G_0.pth和D_0.pth​

2.
替换到pre_trained_model/768l12目录下同名文件​

下载地址：

https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320khuggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k

在开始之前

为了避免在之后的使用中出现各种意料之外的问题，请务必对照下面的 Checklist 检查本机环境。​

关闭全局梯子 / 绕过局域网

确保本机正常连接互联网

使用推荐的浏览器（✅Chrome / Edge / Firefox）

关闭浏览器自带的网页翻译功能

关闭所有第三方杀毒软件 / 安全卫士等

部分浏览器（尤其是 Edge）会出现 WebUI 打开后无法正常工作的现象。如果遇到卡死/无法点击交互等现象，请尝试更换为上述推荐的其他浏览器。​

本地搭建

喂饭级SO-VITS-SVC教程，轻松生成AI歌曲​

喂饭级SO-VITS-SVC教程，轻松生成AI歌曲