陛下,我愿放弃取经大业,与你结为夫妻。打开短视频,我们经常看到这种魔改西游记的片段,他们是如何做到修改角色的配音的呢?今天我们花七分钟,手把手操作,一镜到底,一口气教你用ai克隆声音。开始之前,先看看我做好的例子,灰色执照,苏轼定风波,你能不能背诵全文?首先我们点开这个地址去下载我们的这个a i的文件。通过我的测试,点击这里下载的速度是最快的。
这个地址我也会放到评论区,到时候大家在评论区看就行了。下载好以后,你就会得到这样一个文件,这个压缩包。然后你把这个压缩包解压就得到了它。好,把它点开,你会找到一个go web u i点b a t文件,点击它它就会打开一个这个窗口,这个windows的窗口,你在整个过程中永远不要关闭它。
在这里需要注意的一点就是大家可以看到我的文件夹一定是以英文命名的。也就是说从这以后你的文件和文件夹都要以英文命名,否则容易出错。好,我们准备一个声音,这里我有一个郭老师的声音,我们先暂时来听一下。比如说我把它拿到浏览器里面听一下。
好家伙,净剩工作了。我就歇着,一会儿一会儿就开始工作,我这一工作就得忙到。有了声音之后,我们就可以开始训练它了。首先我们点击这个开启u v r五web u i,这个时候我们就可以开始选模型了。
我们选这个意思就是把郭老师的声音和背景分离成两个文件,选择一个导出文件的格式,通常为w a v或m p三。然后这里可以把郭老师的文件上传上去。我个人比较习惯用这种方法,点一下这里复制,然后把这个文件夹直接粘贴到这,点击转换,耐心等到这里提示success,则说明转换成功。转换好的文件会出现到output u v r五o p t文件夹下啊,我们再次进入g v t output,然后这个u v r五里面,这个时候你就可以看到两个文件了。
第一个是郭老师的声音,我们来听一下。这是郭老师刚才说话的背景音。如果你要做配音的时候,你就可以把它的背景分离出来,然后自己加上声音。所以a i工具真的是好强大,这就是郭老师说话的声音了。
工作了我就歇这一会儿,一会儿就开始工作,我这一工作就得忙到除夕呢。好,有了这两个声音我们就可以开始做了。因为我不需要背景音,我直接删掉它,避免误导我。然后我们再次打开页面,这个u v r五我们就不再需要了。
我们接下来就可以切割郭老师的声音了。也就是刚才我们输出的声音,在这个文件夹我们继续复制它,然后点击这里把这个文件夹又复制进去,然后这些参数全部保持默认。点击开启语音切割,等待一会儿之后,你会发现切割结束,切割后的文件在这个slice这个文件夹中。好,我们再去这个文件夹里面可以看到我们这段音频一共切割成了两小段。
ok不用管它,还是复制这个文件夹。我们来到这里可以看到,默认它会从slice文件夹里面读取文件并进行降噪。我们直接点击开启语音降噪,耐心的等待一会儿。好,等待一会儿之后你又看到语音降噪任务完成,进行下一步。
接下来就是开启离线i s r,我们点击它,然后会在这里看到一些进度提示的信息。提示a s r任务完成后,就可以点这里进行打标了,也就是人工校正。可以看到郭老师的声音已经分解成两段了,我们点击试听一下。好家伙,精神工作了,我就歇着,一会儿一会儿就开始工作,我这一工作就得忙到除夕那天才算休息啊。
最近一段时间主要是筹备钢丝节。很明显语音识别还是有一些错误。我们可以增加标点,修正语音停顿的位置,校准这一段音频之后,我们就点击提交。好,再接下来是这一段,我们再听。
这个钢丝节大伙都挺惦记是吧?已经都策划完了,该准备的也准备了。今天晚上八点抖音直播o k这段没有任何问题,我们直接点击保存。如果有的语音只有一些语气助词特别短,我们就可以在这条语音的后面勾选它,然后点击上方的按钮删掉。好,所有的一切都做好之后,记得点击保存按钮,保存完以后我们就可以进行到下一步了。
我们点击第二个标签页,进入模型训练阶段。这里首先我们要给我们的这个模型取个名字,后续你训练了多个模型就需要通过命名来区分了。这里我取名为郭老师,然后这里是我的显卡,因为我的显卡比较差,所以我目前暂时只能用v二版本。如果大家自己的显卡比较好,可以选择v三,我这里就用v二训练它。
训练它之前我们可以看到这里有三个步骤。第一,获取文本,提取s s r,然后开启语义token。我们不用管它,直接点击一键三连,也就是这三个步骤依次进行。好,提示已经变成了一键三连结束。
然后我们再点击这个微调训练,训练的次数啊等等,这些也保持默认就行了。如果你的显卡比我还差,就把这些训练次数什么的往下再降。好,我们点击开启训练。因为我们要训练八轮,所以它的时间会相对更长。
好,这里已经提示训练完成。接下来我们就开启g p t训练,再点击它,耐心等待o k g p t训练完成。接下来我们点击第三个选项卡推理。首先我们点击一下刷新模型路径,然后再去里面找,这时候你就会看到这个郭老师,我命名的有训练它的次数和人数我们。
选择尽可能大的。这里也选择郭老师,然后训练人数相对大的。点击启用并行推理版本,然后点击开启推理。点击后会又打开一个新的界面,我们在这里看,这就是刚才我们选的郭老师训练好它的模型。
在界面的左侧需要上传一段三到十秒的参考音频来决定语气。如果参考音频听起来很骚,那生成的语音也同样会很骚。我们这里音频较少,只有两段,也就是刚才我们在这个分段里面有两段音频,我们分别听一下,看一下。好家伙,精神工作了。
我就学这这一段是十秒钟。这个钢丝节大伙都挺电,这段是七秒钟。好,我们就以七秒钟这段让它做参考,把它丢进去。这个钢丝节大伙儿都停电。
为了识别更准确,你还可以在下方把参考音频的文本也输入进去。接下来我们就只需要输入我们想让郭老师说的话了。ok输完文本以后,我们点击合成语音,我们再点击播放。大家好,我是郭德纲,这是我的搭档于谦。
如果你不满意,你就再合成一次。大家好,我是郭德纲,这是我的搭档于谦,这样我们整个训练就结束了。训练的结果好坏与否,主要取决于你训练的音频的多少。在这里我们因为只有两段语音,所以它的效果差强人意。
哇,教程这么详细,我七十岁的奶奶都能学会,大家一定要三连哦。