前几天open a i新发布的视频生成模型sara刷了全世界的屁股六十秒长视频。真实的物理引擎它有多厉害就不赘述了,我也十分期待。虽然短期内我们可能都还用不上它,发布以后也大概率会收费。但它标志着一件事情,a i已经进入视频时代了。实际上a i视频生成已经有很长一段时间的技术积累了。除了这次出圈的索引以外,我们还有很多开源且免费的视频生成工具,是可以用来实现你的各种奇思妙想的这其中有一个基于stability version演化而来,在过去几个月里十分受欢迎,直到现在还在持续进化,并且催生了不少创新应用的ai动画生成项目,是我觉得你一定要掌握的animation。在r o g幻air系列笔记本电脑的支持下,我完成了这期教程的创作。这次新上市的幻十四l和幻十六air作为幻系列全能本的新产品,定位便是pro级air,兼顾了性能与轻薄的专业笔记本电脑。一台至薄一点四九厘米,至轻一点八五千克的轻薄笔记本,怎么能成为a i玩家手里的生产力工具呢?笔记让我们先进的教程animate deep是一个有香港中文大学斯坦普电脑和上海人工智能实验室的研究人员们共同开发出来的文本。到动画的扩散模型。
a i能做动画这一点大家肯定早就知道了。但在以前我们制作人动画最主要的思路,无论是movie movie一类的早期应用,还是后来加入了tempera e t e e s s s s工具的进阶工作流,本质上都是将连贯的视频拆成一个个单独的帧,再利用扩散模型重绘这种逐帧转会的动态内容生成方式是有许多缺陷的,比如闪烁眼中耗时也比较漫长。但这些单独的帧里面所包含的元素,运动也是有一定的规律和前后关联的。所以animation f针对视频片段做训练,让ai学习不同类型视频做运动的方式,训练出了一个运动模块,让我们可以把一系列运动的真一次性画出。所以它它生成的内容比以往各种方法要流畅自然。而而且因为这个模块是独立于基础模型的,所以它可以附加到任任何一个大模型上参与生成。换句话说就是让你库存里的每一个s d模型都进化成一个视频模型。正因如此,animation受到了大家的广泛欢迎,并且催生出了一系列丰富的创作应用形式。animation最早只能通过原生代码进行推理,但后来有许多开发者为它制作了更容易使用的载体,比如web u i里的扩展插件,m u i里的功能界面和工作流。我们这期视频主要会利用大部分人更熟悉的web u i扩展来进行示范,但目前可以实现的功能也有很多,系统列举了一下,包括文字生成视频、单独生成视频、视频转视频,还可以借助各种手段精准控制视频的运行缩放,乃至制作这种神奇的变换演化效果。
那它有配置上的门槛吗?有,但不算高。在无优化的情况下,使用web u i里的enemy beef扩展可能需要十二季的显存进行绘制。但对于n卡用户而言,开启x formers后能显著优化显存占用。根据插件作者的测试,最低只需要五g就可以跑动,但根据我自己的使用体验,有八g左右的显存。会比较安全。如果你的显存不够用,可以调节一些以后我们会提到的参数来优化体验。那这个enemy def到底要怎么用呢?我们从web u i开始把它的基本运作方式梳理一遍,你可以通过列表搜索或网址安装在web u i里装上这个enemy diff扩展,顺带一t为了确保能充分调用里面的所有功能,你需要同时安装另外两个扩展。一个是c r l n t基本是不是要配配,另一个则是deform之前非常火的瞬息全宇宙视频就是用它做出来的,它的具体用法我们有机会再聊。这里主要是因为a d扩展的开发者写了一个调用它来插帧的使用功能,我们一会儿会介绍到。同时n m a i f的运作需要一系列运动模块和功能性。
laura你同样可以在简介里查到他们的下载方式,最核心的运动模块至少要下载一个。我推荐你下载这个最新的v三版本模型,下载下来以后,需要将它放置在这个扩展文件夹的model里,方便后续使用。安装完扩展以后重启web u i我会建议你在web u i的设置里针对一系列优化选项进行改动。第一是animation这个插件的设置选项里,确保勾选两个优化项下面一起用了的form的一个一个是一个的的带的一个设置选项里勾选。这个补齐提示词的相同程度。所有这些准备工作都完毕了以后,就可以开始体验它的乐趣了。我们先从最简单的一种操作开始实践,就是使用提示词直接生成一个动画。我们点开文章图的界面,你会在web u i的生成界面下方看到一个可折叠的enemy diff选框。把它点开,我们需要调节的参数都在里面了。去生成一张动图或者一个视频之前,你可以先按照日常文生图的步骤,摸索模型参数、采样器等各个环节的设置。
这里面只有一个需要注意的点,就是在写提示词的时候,正负磁都尽量不要超过限定的七十五个词,否则可能会由于s d的绘制机制导致前后的动画不一致。当你得到了一张接近你需要的效果的静态图片以后,就可以固定包括随机种子在内的各项参数了。但注意因为绘制逻辑的原因,最终生成的动图的模样并不会等同于这张图片,因而这个阶段的绘制效果只能作为一个参考。如果你非常喜欢这张图片并希望让它动起来,那可以把它保存下来,并使用一会儿我们提到的图像视频的流程来进行操作。展开enemy diff并勾选启用。作者已经非常心心的为你。备好了一套默认的绘制参数。如果你想生成一个长度为两秒钟的动画,就只需要选中我们刚刚下载并放到对应目录里的那个动画模块,然后在总帧数这里输入一个十六,右边这里会有一系列保存格式的选项,如果想快速预览效果,推荐保存为gift动图格式,并把右边的p n g取消勾选。否则它会在生成的同时将每一帧的图片也单独保存一份,占用空间也会拖慢导出进度。ok这就设置完了,这么简单吗?让我们回到上面点击一下生成。
如果设置一切正常,不一会儿它就会开始显示绘制的进度。你可以通过实时预览的缩略图看到,它会按照刚才我们提到的运动推理的方法,为你生成这样一系列连续且相似的动画帧。如果显存充足,它所需的时间会接近你的web u i连续绘制完十六张图片所需的时间。生成完毕扩展就会把它们拼合在一起,就形成了一张像这样的动画动图了,是不是确实挺简单的。如果你已经做出了一个和它一样的动图来,就在公屏上敲六六滚一下自己吧。但我猜你肯定不会满足于简单的把它做出来。想完全掌控enemy dif的奥秘吗?那不妨花上。一点时间和我一起研究一下这些参数吧。在生成动画的过程中,发挥核心作用的就是这个运动模块enemy deep的开发者们。针对s d一点五一共训练过三代模型,分别用v一、v二、v三来表示对应的模型文件你都可以在作者的half face主页找不到他们的效果有什么差别,用同一组参数和种子下的生成效果对比来回答吧。
你觉得哪个版本的动态效果是你最喜欢的?客观来看,v三的模型肯定是训练的最先进的,运动会更流畅自然。而是使用老版本时,偶尔你会看到像这样影响观感的视频属性,因此我会推荐你用v三。当然以后作者也完全有可能推出更先进的模型,也是优先挑新版本用。不过a i生成还是有有一定随机性的,所以有时候你可能会觉得v二乃至v一版本产出的结果更符合新版本。用也没关系。另外有一小部分额外的附加组件,例如一会儿我们提到的motion laura和domain adapter,是只能和特定版本搭配使用的。当你选定了一个运动模块以后,最影响绘制效果的参数是这个上下文单批数量。绘制时你也看到了运动模块的作用原理是一次性将多张连续的画面输入进去,绘制这个一次性。输入的画面多少就是由上下文单批数量决定的。它会非常显著的影响你动画的流畅程度。
因为只有同一批次里的运动关联是最稳固的。在这里你会很清晰的看到单批数量十六和八之间动画的前后连贯性有显著的区别,但这个参数肯定不是越大越好的。当上下文长度超过了一定帧数时,在这个案例里会导致生成的图像背景过于单一而缺乏变化。而animal diff的运动模型是基于六六的视频长度去训练的,因此这个数不超过十六真的是最好的。另外一个影响你所选择的因素是显存和绘图的单个数量一样,同时让多张图需要占用更多的数据。如果你显存比较低,一起来吃力,这这种数量的刃的十六削减到八,可以为你再额外节约一季左右的显存。你有注意到我们生存的图图图默认的情况下会一一循环播放的感觉嘛?这个其实是由我们左边设定的这个闭环模式决定的。它有四种模式,同样用一组对比来说明。其中除了第一种n所代表的不循环以外,其他三种都会带有一定的循环倾向。最后一种a一定会让动图的第一帧和最后一帧一致。
而中间两种的差异主要在于prompt travel的一些处理的区别。如果要。难记忆,那就是越靠后的选项循环越死。同样根据你的需要选择。而在设置循环的时候,下面的步幅以及重叠都会对动画效果造成一定的影响。不过嘛我做了不少对比分析测试,最后发现在作者提供的默认数值上,动画的运动效果往往是最为丝滑流畅的。如果你对他们的具体作用感兴趣,可以查看简介里的资料链接,里面有我为你提供的详细解释,更更多示例在视频里就不赘述了。不过如果我们想想这个动画片变得更长又该怎么操作?第一视频长度的就是这个帧数与帧率。视频实际生成的秒数就等于你的数数除以帧率。如果我们平时认认真真率的率率,以视频频频率的频率是把视频增加到四十就可以了。
在这个真率下你可能会觉得它有点卡卡的。因为这个帧率比起我们平时在网上看到的一些视频的帧率,大概每秒二十四三十帧的水平要低上不少。不过我也不推荐你在这里直接提高帧率,因为设置的过高不仅会加重你的显卡绘制负担,还会增加加速的概率。如果我们的开发者为我们提供了一条非常取巧的路径,就是在默认的低帧率下进行绘制以后,利用一个叫做film的a i模型进行插针的,就是我这这真真的填充。近似的过渡内容来让视频和动画变得更加平滑流畅,这是一种在视频后期里非常普遍的处理方式。而我们一开始安装的d fond扩展里就提供了这个选项。在开启了以后,你只需要通过旁边这个x值来控制插帧的倍数,还会给予同样的帧数在每两帧间插入x帧,从而让你视频变慢x倍。一个很好理解的计算方式是,如果你想维持一开始的基于帧数和帧率计算出来的时间不变,但让你的视频更丝滑,就设置一个大约三到五倍的x值,然后把上面帧率乘以x倍,看通过把x设置为三帧率上调到二十四,同样时长的动画是不是就变得比原来流畅自然多了?插帧也需要额外花时间,但无论如何,比起直接绘制更多的帧都是更节约时间的。试试看吧,用了一次你就会喜欢上这种丝滑的感觉的正如同animated v在ai动画领域带来的革新一样,r o g这次推出的幻影系列也树立起了高性能轻薄本的新标杆。很多人的印象里,r o g是一个知名的高端电竞品牌,但他们同样是a i时代的p c h b军,a i创作者对生产力的需求是在随着时代进步不断更新的。
以我手里的这款十六。为例,它搭载的英特尔酷睿二t九一八五h处理器以及g force r t x四零七零笔记本电脑g p u,就可以为air g c创作提供强大的动力来源。对于stable division的玩家而言,四零七零笔记本显卡的强大算力可以支持你在本地快速轻松的生成高分辨率图片。而本期视频里介绍的视频生成类任务,对它而言也自然不在话下。经过实际测试,在web u i上驱动animation,只要一分钟的时间就可以完成一个十六帧标准分辨率视频的生成。强大的三通善加液态金属导热系统,更是可以让硬件在高负荷工作下保持最佳状态。不过嘛比起它的性能,更让我惊讶的地方在于它的轻薄。大家会觉得笔记本的性能是和体积还有重量成正比的,但换air采用的全铝c n c一体成型机身,同时兼顾了便携性与机身刚性,还增大了内部空间来塞进更多驱动a i工作的装备。高分高刷的星云屏和超高颜值的外观,更是可以让你最优雅姿态投入创作并欣赏生成出来的作品。除了ai以外,它还可以在视频剪辑、三d渲染乃至三a大作等方面为我们提高多达两倍以上的效率,并以更强的电池续航时间为广大游戏玩家和创意工作者提供更加出色的性能。
晏,有了这样一台强大的设备,我们为什么不来试试anima dif的更多有趣玩法呢?除了用提示词,我们还可以从一张图片生成一段动画,或者再说简单点,让一张图片动起来。我们转移到图形图的操作区域,将一张你喜欢的图片导入进重绘区域,然后像刚才一样设置各项绘制参数与animate if a的参数。为了确保动画风格和原图一致,你必须选择一个风格相近的大模型,同时绘制的重绘幅度不能太低,一般推荐在默认值以上。另外你可以选择在提示词里适当描述一些你的画面特征,尤其是那些涉及到运动和变化呢。点击生成,它就会把你的图片动画化了。一般来说,你可以先在文章图里绘制你想要的图片,再把它发送到图生图里进行这个流程。但这张图片也可以不是ai化的。顺带一提,animate diff可以生成的也不仅仅是画画风格的图片,真实图片风格的也可以。但在目前版本,这图图图图图图图面面临着一个问题,生成的动画和图图图图,因为我我们导入的图片会经过一些图片的图图图,再到anima dif制作动画,同时这个动画越到后面也会越容易变得。不像原图,因为animation会随着时间推移向图片添加噪声来促成运动。
那怎么控制让它更像呢?降低一种恢复度不太行。根据我的实验,在它低于零点六的时候会出现类似这样的雪花点,影响观感。但下方在文章图里anim def多出了两个选项,是这个later power和和later scale。它们就是用来协助我们控制动画基于原图变化的幅度的。如果只聊怎么做的话,那就是power越小skill越大,那这个动画基于原图片演化的幅度就会越小,反之就越大。因为它对图像的影响和时间相关,且是指数性的,因而调整的幅度要相对谨慎。如果你想让动画表现和原图更像,可以尝试将重绘幅度降低到零点六到零点七,power降低到零点八到零点九,scale数值提高到四十八到六十四,并设置一个不超过十六的总帧数,靠刚刚提到的film插帧来延长动画长度。但注意,这些做法都会让动画的幅度受到一些限制,就是好像没怎么动一样。当然如果你并不是特别关心动图和原图像不像,可以纯粹把图生图的原图作为一张参考图。同样我在资料链接附附上一些关于这些参数的更详细的解析,光感兴趣的你探索更多,你或许也已经注意到。
我们不光可以上传图片给animation,还可以上传视频。没错,在扩展的参数区域下方有一个上传视频源的选项,可以帮助我们用一个视频来指导animae生成动画。或者再说简单点,把这个视频变成动画。我会推荐你在纹身图的过程中去运用它。下面是一个有趣的操作流程示范。在你往里面拖进一个视频以后,视频的帧数与帧率会自动和视频的规格同步。所以如果你的视频比较长,我会建议你先在一些剪辑软件里面把它截短一点,并且手动降低一下真率。然后在提示词里输入关于视频内容的描述,并且同样设置包括模型在内的各种参数。比较有趣的一个小技巧是你可以在提示词里加入laura,它会把你的laura包含的人物或画风也给加进动图里。而在对视频进行重绘的过程中,一般我们都会搭配着开启control net来进一步控制视频中的角色人物形象或姿势动作。
在这里你只需要像往常画单张图一样,把c t r l点点开,然后再设置合适的控制内容。通过这样一套组合拳,我们就成功把这个视频变成了一个动画了。这和我们以前所做的视频逐帧图图一样,在control dep的特性会让生成的动画更加连贯。基本杜绝了闪烁感,所以利用animation去做逐帧重绘也成为了现在的一种主流趋势。当然如果你想要重绘出来的画面更忠于原著,则可以考虑将视频导出为帧序列,在图像图批量处理中进行生成。具体的思路和之前一期视频里介绍的一致,我放了链接,感兴趣可以去看看。只需要在上传时使用animam,其他操作完全一样。但在web u i里的视频做拆分处理确实麻烦了一点,所以我会更推荐使用copy i里的一些工作流来进行转会生成。但这还不是animated v扩展有趣的地方。目前市面上流传的非常广的一类基于anima dif的视频创作,是像这样不断变换演化生成不同形象的视频,它是怎么做到的?这些全部要归功于animation f里的一个神奇功能,prompt travel. 它玩起来其实非常简单,以一个实际的例子来说明,在文章图里这种提示词可以为我们生成一个半生人像,然后我们就可以去基于它绘制动图。
刚才也提到了这个动图的主要绘制内容还是由你输入在上面的提示词来决定的。但如果你的视频足够长,你可以通过特定的语法结构控制它。在特定的帧数内以一组提示词绘画,帧数到达一定数值以后自动切换到另一组。提示词上,现在我们在提示词的最下方换一行,先输入一个零冒号close ice,然后再回车换一行输入一个八冒号open eyes。这种描述代表我们会在第零帧绮将closed ice添加到上面这一串提示词里面。而从第八帧起会把closed ice替换成open ice,再进行接下来的生成看,我们就通过它实现了人物的真正的变成的动作全程程程。而创作各种动图时,你就可以用类似的手法来改变画面里的小细节,从而让你的动图更加生动。但因为a i生成具有比较高的随机性,有时候你的提示词它可能没有那么能听得进去。如果效果不佳,你可以试着改变种子,多生成几遍。而只要你的总帧数足够长,这个travel也可以变得更长且更加丰富多样。
你可以体验一下这一套我为你写好的提示词,一共有四段变化。将它粘贴到你的提示词框里以后,总帧数设置为六十,重叠修改为二。点击生成,你就会看到一个一年四季的完整你花变化过程了,是不是还挺神奇的。在生成动图时,除了最主要的这个动画模块以外,还有一些其他的小组件是你可以在生成的过程中搭配使用的。这些组件目前阶段主要包括以下两个方面,第一个是motion的。运动laura指的是enemy dive的开发者们额外训练的一系列可以辅助控制镜头运动轨迹的laura模型。你不用为这种功能是以laura的形式出现而感到讶异。如果你有关注我们之前更新的模型训练的那部分内容,就会知道laura本质上是一种部分的改变主模型权重的附加网络,那自然也可以用于改善运动模型的功能。你可以在前面提到的模型页面下载作者练制的这些模型。loa一共有八个,对应不同方向的移动以及旋转缩放。
使用的时候只需要将它们像其他laura a一样加进提示词就可以了。权重大小会影响运动的程度,我们就可以通过这样的方式操控这个动图的镜头运动了。但有三点是你使用的时候需要注意的。首先如果你想塑造镜头的位移变化,那最好是将循环模式切换为第一个无循环,不然在循环下运动英雄又会回到原点,等于动了个寂寞。其次是laura是基于v二模型训练的,所以理论上也只能搭配v二的运动模型使用。再其次,同样是由于训练素材的原因,在使用这些模型laura时候,画面有时会出现非常明显的素材水印。但和主要的运动模型在不断迭代一样,开发者们说不定也正在着手优化这些模型laura的体验了。另外。v三版本模型更新的时候,作者一同更新了一个叫domain adapter预适配器的laura。这是一个在视频的静态真相训练的模块,作用在于让生成专注运动部分的建模,简单说就是能让运动更加自然,也可以消除一些诸如水印之类的负面特性。
它可以将v三模型搭配流程,根据我的测试,高权重下它的画面模型会更加稳定,可以可以降低一些运动的多样性。如果你在用v三点的时候,我都会建议你可以可根据你想要的效果模拟出一个合适的功能。还有很多这个扩展模型的模式是我们这一期视频中介介绍的。例如它也支持使用excel模型生成,只需要下载由其他社区贡献者们训练的这两个运动模块,就可以和你喜欢的excel模型一起生成精度更高的动画了。同时如果你的设备算力不是特别充足,也可以考虑将它和l c m采样器等手段搭配使用,在更短的步数内生成一个视频。再比如在工体u i里,你可以借助更多功能强大的节点,将control net ip adapter甚至其他各种神奇的组件串联进来,实现一个更复杂的视频生成。工作流在comp ui使用animation生成视频的速度其实会更快,在进行转会一类的操作时也会更为便捷。直观因为篇幅原因,我们在这期视频里并不会展开继续说。但如果你对这些内容感兴趣,就在弹幕敲一个二,然后期待一期进阶的内容吧。以上就是本期教程的所有内容了,再次感谢l g换air系列笔记本对本期视频制作的大力支持。
如果你是一位有强生产力需求,但又需要笔记本带来的一部分便携性能的创意工作者,r o g的换air系列笔记本就会是一个非常值得信赖的选择。如果这期视频对你有帮助,请别忘了一键三连支持鼓励一下,或者把它发给你身边对a i创作视频动画感兴趣的小伙伴。这些能感谢你看到最后,我们下期再见,拜拜。