最近我在刷视频的时候,发现短视频里面用a i变声的人越来越多。好像现在几乎每个短视频和行业里,ai配音都成了必备元素,确实能大大提升视频制作的效率。不过啊又有个问题,就是每天都有那些注意看注意看小帅小被推送到我们的面前,毫无人味的讲述,加上与内容无关的音色,久而久之大家都好像对这种风格有点厌烦。以往我们对a i配音的印象就是那种机械的读字,特别是长篇内容配音的时候,大多都会出现语调单一的问题。其实如果是训练的很好的,语气、音色、气口、抑扬顿挫都有些变化,本宫是不会排斥的。我花了一个月的时间测试了几款常见的a i语音软件,最后选出了四款我觉得体验最好的变声工具。从功能、使用体验、设备要求、操作难度等多个方面对比总结出来这张表格。
cos voice占空间最大,足足二十六个g但音色克隆只需要三秒的素材。华为大佬的g p t搜v i t s没有音转音的功能,但可以克隆音色,并且可以保存模型多次使用。g p t t t s虽然只有九g但它的功能仅限于单一的文本转音。而其中刀片插是功能最全面,配置和空间要求也是最低的,但它的部分功能需要收费。这四款软件大家可以看个人需求来取舍。你认为a i语音技术可以广泛应用吗?接下来让我们动手实操一波。首先我们可以在视频的下方找到我分享的链接,选中它右击转到找到我们所看视频的标题,找到它后方的链接,点击链接,这里有我分享的各个软件。
首先我们下载第一个软件,我们下载以后解压出一个文件夹cos voice。打开这个文件夹,找到启动音色克隆,一般就只使用这个。好,打开看到这样一个界面,就是打开成功了。这个软件有两个功能,一个是用它内置好的音色去生成。点击这个按钮是切换到这个模式,然后他要说的话输入在这里,然后这里是切换它的音色。内置的音色我们先直接生成一个。生成好了,听一下我是通义实验室语音团队全新推出的生成式语音大模型,提供舒适自然的语音合成能力。
还不错,切换一个在生成听一下。我是通义实验室语音团队全新推出的生成式语音大模型,提供舒适自然的语音合成能力。好,第二个功能呢就是克隆音色。它这里有个特色啊,就是三秒极速复刻。点击这里切换到克隆模式。克隆模式需要提前准备好一段三十秒的音频,我们提前准备了一段三十秒内的音频,拖就过去拖到这里,然后听一下这段音频。什么他娘的精锐啊,我就不信那个邪,老子打的就是精锐,传我的命令。
全体上刺刀,准备进攻。没听见命令吗?啊。输入音频以后,我们还需要在这里输入到就是这一段所说的文本。我们直接右击。使用夸克的音频转文字。好,已经生成好了,我们将它复制过去。这里输入我们需要让它生成的文字。
好,然后直接点生成音频,生成好了听一下。最近我在冲浪的时候发现现在越来越多的短视频都在视频中使用a i面霜。第二个软件是花儿大佬的g p t搜v i t s。这个软件呢现在只有音频克隆这一个功能,它需要准备的音频素材呢下至几分钟,上到几个小时都可以。一段好的音频素材对于训练结果是有很好的帮助。首先教大家怎样准备一段优质的音频素材。这里我们使用到了剪映,将未处理过的视频直接导入。
我选取了一段他们密集说话的部分,右击智能前口播,处理好以后,在这里删除非主角说话和空白区域啊,全部删除其他人说话和空白时间。以后可以直接导出,把其他都点掉,只选择音频导出。导出以后打开文件夹,可以看到,这就是我们刚才所处理好的音频。打开这个文件夹,找到这个go web u i b a t,双击打开,看到这样一个界面就是打开成功了。先第一步打开这个u v r五,这一步的作用是把人声和b g m分离。这个界面打开以后先选择模型,一般默认第一个就可以。然后输入我们刚才处理好的文件,直接拖入。
拖入好以后,这里我们选w a点击转换,这里显示转换好以后找到刚才解压的文件,它这里显示在output u r v这里第一个文件一般都是分离出的b g m和音乐其他声。第二个就是我们所需要的人生,我们把它单独给复制出来,复制到这里,然后这个就可以删除了。这个就是一个纯净的人声。这一步完成以后,把这个页面关掉,输入我们刚才这个文件夹的路径,然后直接开启语音切割。这里我一般会设在九千左右,九千就是大概每个片段截九秒左右,然后直接点击这里开启语音切割。这里显示切割结束以后,我们进行下一步切割。那一步完成以后,它会自动帮我们填入下面几步的文件路径,我们就不用再填了,直接开启下一步。
语音降噪也是看这里的状态好完成了,然后直接开始下一步,一切都默认了,也是中文。这步完成以后,直接点击这一步,它会也打开一个新界面,就是核对它分割的这些音频的文字,核对一下大概的内容。没有错以后,点击这里see you feel,然后关闭它。再点这里,关闭它。下一步。点这里。然后在这里输我们需要训练的一个模型名称,然后剩下的都不用动,默认即可直接开启这个按钮,一键三连三连三连三连。
这里看到进程已经结束了啊,然后再点击这里进行下一步微调训练。这些参数就默认啊,直接点击第一个按钮训练这里显示训练完成以后,再点击这个按钮,这里也显示训练完成以后,基本上这个模型就算练成功了。怎么使用它呢?点击这里推理刷新一下路径选择,找到我们刚才的甄嬛零二。在这里我们直接选择这个e五,这里也找到我们甄嬛零二,选择零八启用并行版本推理,然后开启推理,它也会打开一个新的界面,这一步需要一个三到十秒的参考音频。我们找到刚才那个文件夹output,找到一个s开头的文件夹。这个文件夹里放的都是我们刚才那条长音频,分割成九秒九秒九秒左右的一个短音频。我们随便找一个拖进去。
听一下。江城江慎两人的方子。原是出自温太医之手。皇上若不信,可去细细查问。也是九秒以内啊。然后这里也要输入这段音频所说的一个文本。我们找到刚才我们选择的那个右击,让夸克再帮我们转一下文字。
转好了我们复制一下,这里输入我们需要合成的一个文本,在这里输入文本以后,直接点合成语音就可以了。听一下,我花了一个月时间测试了几款市面上常见的a i语音软件。最后留下了四款主流的。我个人认为体验感拉满的变声工具。接下来讲一下chat t t s这款软件。也是在我们分享的链接里,这里可以下载。下载解爱好以后会看到这么一个文件夹,chat t t s. 这里直接打开这个启动器,也可以双击。
看到这样一个界面,就属于打开成功了。在这里输入你要转音频的文字,它这里默认了一些。然后这里可以随机一个音色。然后我们点击生成听一下。四川美食确实以辣闻名,但也有不辣的选择,比如甜水面、外汤圆、蛋烘糕、一二八等,这些小吃口味温和,甜而不腻,也很受欢迎。情绪还是很自然的。如果你随机到某个音色,你觉得还不错,可以在这里保存它。
然后下面是一些细节的调整,比如语速、口语化程度、笑声之类的。当然你可以上传音色,但是需要提前准备好模型。这个软件规划布局很合理,可以快速上手。接下来是当兵叉这款软件,它是其中功能比较全面,文声音音、转音、克隆音色都有,而且不挑电脑,安装即用。而且我看到的官网具有商业授权,完全不用担心商用。在视频下方简介找到网址,右击转到点软件下载,或者可以扫一扫微信小程序。这里我们下载windows版本,下载这款软件。
点击安装,等待安装完成后打开,输入手机号。看到这样一个界面,就是安装成功了。准备好配音的文本,输入到文本框,选择自己所需要的音色,可以试听一下,看是否符合自己的需要。来上课了,把课本翻到第八十六页,这个声音我很喜欢,然后再选择好一个情绪。使用绘声绘色的情绪试一试,调整一下语速,再点击生成啊,可以听一下效果。让我们一起来说中文,换一种语气试一下。欢迎来到猪肉的世界,我想用我录制的声音,但只改变音色。
它也可以做到。点击这里语音转换,点击这里新增文件,可以选择你需要转换的音频。这里我没有提前准备,所以我打算现场录制一下。点击音频编辑。点击这个小红点可以录制。点击小红点。选择我的收音设备这里点击开始录音。
在一天结束的时候,需要清洁商店以保持卫生整洁。还可以比较完整。这里选择导出,这有一些参数我们默认即可导出。然后我们回到语音转换,这里新增文件,选择刚才导出的文件,选择角色就选这个点击转换。在一天结束的时候,需要清洁商店,以保持卫生整洁。还有语音克隆的功能,点击左侧语音克隆右上角找到创建模型。填写一些基本的信息,点击下一步,然后看到添加音频的界面。
但它的说明是需要清晰的录音,三十条以内,每条大概一分钟左右,这里我们直接录音。挺清晰的,我们就提交选中提交好了。这里我已经大概录了十几条音频,再在这个窗口输入我们刚才录制所用的一个语气,整体都准备完成,开始训练。然后我们需要等待一段时间,我们点击去使用,我们复制一段文字上去,然后点击生成。请问为什么没有沙僧的戏份?可以理解,但不能理解的是,钱都问沙僧了,那为啥不问一下小白龙?主要也没有小白龙的机会啊。与其他克隆语音不同的是,完全不吃配置,一切由云端处理,电脑再差也可以胜任。主要的功能都是免费的,还有一些功能需要会员视频下方简介会有邀请码,邀请码可以获得三天会员和八折优惠。
总算盘点完了,以上就是本期的全部内容,希望今天这期视频可以对你有所帮助。如果大家在学习的过程中遇到了什么问题,请在评论区留言。如果大家喜欢这种up私藏工具盘点类型的视频,不要忘了给我一个一键三连哦。这样我会在未来做更多类似的盘点分享,帮助大家一起进步。那今天的视频就到这里了,咱们下期再见,拜拜。