现在你只需要一张图片加上任意一段音频,就可以让ai帮我们生成一个栩栩如生高度仿真的视频,不仅可以让他唱歌,也可以让他模仿任何人说话效果我们先来看一下这个生成以后效果,大家觉得要不要道歉?你一年没吃苹果,你就能偷苹果啦。啊。吃水果是必需品还是奢侈品?水果还是奢侈品的?但是我三十天都没吃过饭了。
我都快饿死了。我偷了一袋车厘子。价值它仅仅是用了一张高级强的照片,再配上一段音频啊,就可以让强哥变身刑法教授在线授课。关键是效果非常不错啊。当然它也可以实现无缝对接动态小视频,而且收到的视频最长可以达到一分三十秒。三、读书可以开始了十年。
what is. 也就意味着,通过这项ai技术,它可以轻松生成带有丰富的面部表情和各种运动姿势的视频,同时可以根据输入视频的长度来生成任意持续时间的视频。你可以想象一下,yes, 用网上的一张蒙娜丽莎的画像就可以让它生成唱歌的视频,还可以让它生成的视频。最关键的是他这个视频的人物表情非常到位啊,不仅是口型,语速都可以完全匹配。a drinker. and have been的。这种a i视频实现的技术框架啊,它主要是由两个步骤来完成的。首先第一步在初始阶段被称为帧编码,使用reference net从参考图像和运动帧中提取特征。
随后在扩散处理阶段,由运行的音频编码处理器处理音频嵌入人脸区域,掩模和多帧噪声相结合来控制人脸图像的生成。其次是通过骨干神经网络来简化去照操作。在骨干网中他们采用两种形式的注意机制,也就是参考注意和声音注意。这些机制对于保留角色的身份和调节角色动作是必不可少的,同时还利用时间模块来控制时间维度和调整运动速度。目前这项a i视频生成技术是由阿里研究团队公布的,只不过现在它还没有正式公开源码。但是我们可以在githa u p上找到替代方案,它是完全免费开源的,它就是这款side talk。
详细的安装教程我我已经放在视频下方,还有零度波上,标程打开这个链接就可以了。打开以后,然后接着往下拉。首先第一步我们需要按照这个python环境,开发者给出要求是需要按照这个python的三点八这个版本啊。首先我们就按照这个python三点八打开链接就可以了。进入这个拍摄三点八一年的版本以后,然后再往下拉拉底部。因为我的电脑是windows系统,所以这里我选择windows的六十位版本。
这里可以根据自己需求来进行选择。把现在装下来啊,下载好以后,我们就可以获得这个安装包了。然后接着我们双击打开进行安装一下啊。打开以后这里需要注意一下了,你的工具下方有一个把这个拍摄三点八啊,把添加到系统环境路径下勾选好以后,整体上方有一个install,now耳机安装下。啊,等它安装完成以后,把这个给它关闭掉,把这安装报表来分开就可以了。而且我们执行第二步,就是需要安装下这get的环境。
你可以打开通过手动下载进行安装,或者跟我一样直接通过这个个位面进行安装。因为通过这种方法安装的话,它出错概率比较小。如果电脑是windows十或者windows系统的话,那么现在我们在下方搜索栏里输入这个power shop,进入以后拉希尔复制第一行命令来安装下这次过程。做了以后,我们回头确认一下好安装好的scope命令以后,那就通过这行命令来安装的get。不知以后呢,咱们进去。好,这样的话这个概念环境它就安装好了。
然后接下来执行第三步,就是安装下载f f m p g音频处理器。我们同样都会从各个命令进行安装,把这行安装命令给它分出来,复制好以后,我就粘贴进去并安装就可以了。好,安装完成以后拿锨把行。第四步就把这个三tok这个程序给它下载到本地。我们直接通过这海面就可以了。画壁下靠背好以后,然后再来进来。
啊,这样的话它就下载好了。下载好以后,那么如何找到这款程序呢?就像跟我一样,打开我们电脑。这种情况下,它是安装在这个c盘的,我打开我的c盘。打开以后尽量把用户。其实这里要注意的,因为我电脑用户名是零度,所以这个打开零度文件夹就可以了。到时候根据自己情况,就是根据电脑用户名进入到对应的文件夹。
定位以后,然后现在往下拉,然后下方有一个side talk,就这里了。进入以后,你就看到这这款程序的目录了。然后接着我们需要执行第五步,就下载这对应的模型,我们点击前往。进入以后我们就可以看到这模型下载页面了。哪些我们需要把这个力学模型,然后下方的g f p杠这个离线模型给它倒下来。它上面提供三种下载方式,第一是谷歌网盘,而第二是get hub,第三是百度网盘。
哪个下载速度快,你就用哪个就可以了。比如说选择补个网盘啊,打开以后呢我给它端下来。这个预训练模型它总共有一点五g左右,把它倒下来。好,下载好以后,然后现在回到刚才下载页面,把这个g f p杠这个离线补丁给端下来。我同样是用这个谷歌网盘。这个总共是六百二十九兆啊,下载好以后,然后现在不给它解压出来。
解压出来以后,现在你只需要跟我一样,把刚才解释的这两个模型文件给它放到这个talk的根目录下面就可以了啊。放了以后,现在我们只需要在该目录下面,在下方有一个web u i点b a t的批处理文件,就这里了。这里注意一下,不是在b b s s h啊,这个web u i点b a t。如果你看到这个后缀名的话,那么你上面有个查看,然后点击里面有显示,把这个文件扩展名给它显示出来就可以了。最后说你打开这个处理文件啊,打开以后它会在终端下自动下载并安装必备的环境安装包。这个过程可能需要几分钟左右,我们稍微等待一下。
啊,到这一步的话,他正式开始按照这个set talk的web u r程序了。啊,如果你跟我一样,大家运行以后出现这个错误的话,那可能是因为版本的问题啊。我上网查了一下,最后发现通过这个方法呢可以解决,就替换这个a p p三十k的脚本,它下载电我同样会放到零度博客上,我先把这个文件给当下来啊,下载好以后,然后给解决出来。然后先把这个运行框给它先给它关闭掉,要么打开下载好的文件,把它替换到到根目录。然后进入到c版目录下,找这个三talker,打开了根目录。啊,进入以后,这样我需要把里面这个a p p三十ka这个python脚本啊给它替换一下,把下载好了的文件给拖进来。
并替换。好,替换好以后,那么再次运行下这个脚本。看能不能解决。哎,可以了,来看一下,当你看这个页面的话,那说明他现在已经安装成功了。下面只要在这个浏览器上打开的地址就可以了。不知想打开的地址。
好,这样的话就可以了,说明他现在就安装成功了。首先我们先上传一个音频,打开以后选择我们要准备好的音频并上传一下。下方这些仓储的话,大家可以根据虚假性选择将d n b处理模型。第二个是准模型,那第三个是g f p杠神经网络来作为面部增强器。如果你需要设定更好效果的话,那么可以勾选这个。来下方有一个人脸模型,分辨率默认是二五六,二二五六是比较小的。
如果想更清楚你的话,那么就就勾选第二个选项,就是五幺二的分辨率。那下面有个知识控控制,这个是大家可以进行微调,那下面需要上传一个图片。你要现在随便上传个图片来试一下。好,商量好以后,然后我们拉顶部,然后点击生成就可以了。这个生成过程可能需要点时间啊,整个处理速度主要取决于的显卡性能。我们可以在终端里看到它的处理进度,我们稍微等待一下,等它合成完成以后,我们可以在该目录结果目录下得到生成以后结果。
来看效果,常记溪亭日暮,沉醉不知归路。兴尽晚回舟,误入藕花深处,争渡争渡惊起一堂就可以啊。观察深夜的速度非常快啊,大概只需要一分钟左右就可以完成了。当然如果你显卡性能不够强的话,那么可以通过网上的在线平台进行使用。它也是完全免费的,就托管在ho ga e face上的这个在线体验,同样放到零度博上了标签打开链接就可以了。打开以后它使用过程也是一样的。
在第一步,这里上传一个图片。然后在下方上传一个音频文件。其他尝试的话,你可以根据自己需要进行设置,最后点击合成就可以了。因为这个屏呢它使用的共享g p u,所以它的生成速度肯定会慢一点啊。过了几分钟以后,它现在生成完成了,来看看效果怎么样,我打开看看效果。你可以乘公共汽车去车站。
因为刚才我为了节省时间,把这分辨率设置的比较低。当然如果你当时真的需要生成视频的话,那么可以把这个模型选择这个五幺二的。战争完成以后,我们可以通过鼠标右键把这视频另存为,就给它端下来。就可以了。抱一抱就当作从没有在一起,好不好?要解释都已经来不及。今天视频所有的全部资源,他们链接我都放视频下方。