【AI翻唱/SoVITS 4.1】无需配置环境的本地训练/推理教程[懒人整合包]

新手上路1年前 (2023)更新 一起用AI
7,518 0 0

转自B站UP主羽毛布団的教学视频

基于So-VITS-SVC 4.0的本地训练/推理整合包和教程

 

整合包下载:https://docs.qq.com/doc/DUWdxS1ZaV29vZnlV (如果链接打不开看一下链接里的a”V”29,V应该是大写)

云端训练教程:BV1324y1572U

一、制作训练集。纯人声或提纯的歌声,时长1~2小时。

1、数据预处理:UVR5去背景音乐和混响,如图。

2、Audio Slicer音频切片处理。将音频拖进去后,mini length改为8000,其他默认,设置好输出路径后start。(实测下来虽然把最小长度设置为8秒,但输出切片最短在一两秒,最长达一分半钟。可见Audio Slicer并不能很好控制音频长度,它的实际作用是去除提纯的人声里面空白的片段。所以Audio Slicer处理后最好自己检查下,过长的音频会让你在训练的时候爆显存)

3、将上一步输出路径的文件夹改为说话人的名字,并移动到so-vits-svc-4.0\dataset_raw目录中。(个人建议你把所有素材都听一听,歌声会有去不干净的和声,直播录音难免有椅子或者其他敲击的声音,这些都要从素材里面筛除掉)

4、回到懒人包,点击数据预处理.bat。处理好的数据集生成在so-vits-svc-4.0\dataset\44k中。自动划分的训练集和验证集在so-vits-svc-4.0\filelists中

二、开始训练

1、修改配置文件。so-vits-svc-4.0\configs\config.json。几g的显存batchsize就设置几(比如12g显存batchsize设置12)。batchsize设置后要修改learning rate。learning rate=(batchsize/6)×0.0001(存疑);keep_ckpts代表保留最新的多少个模型文件

2、回到整合包,点击训练.bat。停止训练ctrl+c。再次点训练会继续。重新训练则删除so-vits-svc-4.0\logs\44k下所有文件,再把so-vits-svc-4.0\pre_trained_model下的预训练模型复制回so-vits-svc-4.0\logs\44k

三、推理

1、点懒人包下的推理,打开web UI后选G开头的模型,配置文件用刚才的,音色是刚刚训练的。上传音频同样要去和声和混响,然后每一段切1分钟(12G显存为例),这里切音频用Adobe Audition

2、自动f0预测:自动变调。仅限转换语音,转换歌声不勾选因为会跑调

© 版权声明

相关文章