转自B站UP主羽毛布団的教学视频
基于So-VITS-SVC 4.0的本地训练/推理整合包和教程
整合包下载:https://docs.qq.com/doc/DUWdxS1ZaV29vZnlV (如果链接打不开看一下链接里的a”V”29,V应该是大写)
云端训练教程:BV1324y1572U
一、制作训练集。纯人声或提纯的歌声,时长1~2小时。
1、数据预处理:UVR5去背景音乐和混响,如图。
2、Audio Slicer音频切片处理。将音频拖进去后,mini length改为8000,其他默认,设置好输出路径后start。(实测下来虽然把最小长度设置为8秒,但输出切片最短在一两秒,最长达一分半钟。可见Audio Slicer并不能很好控制音频长度,它的实际作用是去除提纯的人声里面空白的片段。所以Audio Slicer处理后最好自己检查下,过长的音频会让你在训练的时候爆显存)
3、将上一步输出路径的文件夹改为说话人的名字,并移动到so-vits-svc-4.0\dataset_raw目录中。(个人建议你把所有素材都听一听,歌声会有去不干净的和声,直播录音难免有椅子或者其他敲击的声音,这些都要从素材里面筛除掉)
4、回到懒人包,点击数据预处理.bat。处理好的数据集生成在so-vits-svc-4.0\dataset\44k中。自动划分的训练集和验证集在so-vits-svc-4.0\filelists中
二、开始训练
1、修改配置文件。so-vits-svc-4.0\configs\config.json。几g的显存batchsize就设置几(比如12g显存batchsize设置12)。batchsize设置后要修改learning rate。learning rate=(batchsize/6)×0.0001(存疑);keep_ckpts代表保留最新的多少个模型文件
2、回到整合包,点击训练.bat。停止训练ctrl+c。再次点训练会继续。重新训练则删除so-vits-svc-4.0\logs\44k下所有文件,再把so-vits-svc-4.0\pre_trained_model下的预训练模型复制回so-vits-svc-4.0\logs\44k
三、推理
1、点懒人包下的推理,打开web UI后选G开头的模型,配置文件用刚才的,音色是刚刚训练的。上传音频同样要去和声和混响,然后每一段切1分钟(12G显存为例),这里切音频用Adobe Audition
2、自动f0预测:自动变调。仅限转换语音,转换歌声不勾选因为会跑调