嗨,这是我打算在频道里挖的一个新坑。大家都知道今天的ai已经能做视频了。像这种写实的、科幻的、魔幻的、艺术的,哪怕是抽象的概念,它都能表现的非常好,有很多商业广告乃至影视作品也都开始尝试运用a i技术去实现一些以前很难制作出来的效果。传统视频行业里有个说法叫拉片,就是把各种优秀的片子找来从头到尾拉一遍,去分析它运用了什么拍摄手法、后期技术或视听语言。所以我就想做个a i视频拉片,通过分析一些优秀的作品来帮助屏幕前的你了解如何去制作一个a i视频。让我就是找一些什么样的作品来拉片的时候,我们的老朋友七彩虹联系了我,帮我找来了三位非常有实力的艺术家,这其中有一线大厂的高级视觉设计师,有投顾ai社群的掌门人,还有粉丝量超过百万的一位我的a i启蒙老师。
于是我们一拍即合,就有了今天这些内容,来带你看一看这些大佬们是如何用ai做视频的?因为三位老师的作品其实都不长,所以我们就先来一起欣赏一遍,再拉一拉里面的一些技术细节。我会结合一些我自己的分析以及三位老师做的幕后分享,来给大家梳理出每个视频里面最值得关注的一部分技术细节。如果看完了以后觉得对你有所启发或帮助,记得点个赞支持一下啦。第一个作品的创作者是野菩萨老师,国内头部的a i g c博主之一。他创立的野神殿社区非常有影响力,和维族a g i联合举办的多届生成式视频大赛,现在还是国内知名广告公司w的a i合伙人。他们制作的片子有一个核心的主题啊,就是围绕七彩虹i game的这个非常富有科技感的logo去做延展发散,就相当于给他们做一个品牌宣传片。
哦,他前后用control net做了一致性的构图,所以转场过去特别丝滑。很酷炫啊,可能是指泵做的。啊,这个项目就结束了。这个片子的节奏和结构就很广告片啊,音乐很有段落感,起承转合的框架也非常鲜明。我梳理了一下,这里面主要用了两种不同的制作手段。首先是经典的图像视频,输静态的手真就可以生成后续的视频。
像开头这个在纸上手绘logo草图的片段,利用软件一类的图像视频模型都可以生成。其次则是用了default这个工具,我们也专门做了一期视频介绍过,它本质上是把视频拆分成单帧去做逐帧重绘。很适合塑造这种迷幻富有变化的效果,中间那段特别吸引人的瞬息全宇宙就是用这样的方式实现的。也不是。老师展示了一个细节操作,就是通过jason格式的文本列,可以往deform里快速添加几十条不同的提示词,在短时间内依靠关键帧快速切换,就能带给人一秒一个风格的连贯而又富有变化的视觉体验。为了确保这些延展的风格是他自己所需要的,它往往会用多轮次种子跑同一条视频,再从里面挑选出合适的片段剪接在一起。
这种海量抽卡在筛选的创作方法对本地设备的算力要求是非常高的。而野菩萨老师所使用的设备是七彩虹为他提供的。这套i game ultra family主机,这台主机我之前也上手体验过用它实测了各种ai视频生成模型的表现。它搭载了七彩虹g force r t x四零八零super显卡和英特尔酷睿i七幺四七零a k处理器,拥有一万零二百四十个酷大核心,并能提供高达八百三十六tops的本地a i算力用它跑图生视频的效率是非常高的。像也不飒老师介绍的一样,吃个饭回来的功夫,电脑里可能就有一千多张成品图的等待我们去挑选了。在这种强大算力的加持下,无论是用control net做风格延展,还是通过deform转会,都会变得更加轻松。
这个片子最吸引我的一点其实是里面画面切换和音乐节律的结合。也不像老师在做deform视频的时候,会用一个叫做pc参数定制器的东西。它里面有一个叫做audio reference的模块,就可以识别节拍点,并且把它转换成jason格式的参数,从而可以配合提示词和动效的关键帧变化,去做出一些非常酷炫的屏闪踩点效果,而它也提供了高度可视化的界面,帮助你更加直观的调节depo n里的各项参数。如果你也想用deform做点有趣的效果,不妨去试试它。而在不同。镜头的安排上,也菩萨老师也运用了一些影视行业的表达手法,比如频繁使用的蒙太奇,在丰富观感的同时塑造了logo这个视觉上的锚点。
还有在高潮部分前面特意拉出来的这段brick,我觉得真的很妙,不知道你会不会有和我一样的感觉,就是让整体的节奏变得更加张弛有度了。在这样一个信息载量不大,以概念呈现为主的小短片里,节奏其实是占据非常主导的地位的。如果你能让ai生成的画面和音乐的节奏去结合在一起,其实就能很轻松地抓住观众的注意力。另外,野菩萨老师自己是会一些编曲的,他甚至可以反过来为了画面去设计合适的音乐节奏,这可能是他的片子一直以来都很吸引人的一个原因。我们今天要拉的第二个作品的创作者柴琳琳老师,之前京东、腾讯的视觉设计师,现在的字节跳动高级视觉设计师,荣获过战库artis一百特邀艺术家,合作过的品牌包括apple、nike、蜘蛛侠、纵横宇宙等等,你会好奇他的作品是什么样的吗?一个很有氛围感的电影,开头后期压上去。绘图的风格整体是偏科幻感的。
应该是用了专门微调的大模型。这机甲带我就挺喜欢。这镜头的风格一致性控制都相当不错。这个我的展示也是同学在做。这个运动的连贯性已经做得相当不错了,但细节还是有些粘连。不知道老师用的是哪家的东西?我不感觉像是特里布吉梦的两个星。
这个作品就可以归纳为那种比较预告片式的a i短片了。根据老师自己的介绍,他是想要去做一个有点沙丘风格的未来科幻题材。为此他前期搜索了很多类似风格的参考图,然后使用stable division创作出了一组符合需要的静态图像作品,再把它们输入到图像视频模型里,生成运动幅度不大的分镜片段。配合史诗感的音乐剪辑到期得到了最后的作品。我觉得最大的亮点就是这些分镜其实是充分体现出了柴琳琳老师作为一个视觉设计师的审美素养的,从画面整体的构图和人物机械表面的细节都做得很逼真。按照传统的视频流程,做出这样的产品,可能要经历一个非常复杂的建模、贴图、渲染的过程。
而且今天借助生成式ai工具,创作者可以在一个非常短的周期内完成类似的效果,节约大量的时间和精力。但你会注意到,这里的静态图片看上去质感要比视频里最终呈现出来的好一些,因为现在绝大部分视频生成模型的分辨率都不会超过七二零p而在静态的图片上,通过超分你可以很轻松的在二k甚至四k的分辨率水平上去做视觉呈现。所以。阶段这个过程仍然会有一些质量上的折损。柴灵灵老师呈现i game logo的方式,采用和眼菩萨老师类似的方案,就是抗穿戴。如果你想让a i制作的视频里保留一个logo,这样有准确形体的元素,就可以提取出它的线稿或景深特征。
然后在生成的时候加入control一类的控制生成模型,把它植入到画面里,再拿这张含有logo的图片做土生视频,这样在后续生成的视频片段里,logo一般都能维持较为稳定的形象。它还有很多用处,例如控制人物姿势、画面构图等等。在有精确复现要求的商业级a i视频生成里是至关重要的。但它也是开源的,所以只要你有一台配置充足的本地设备,就可以在你自己的电脑上去使用。这类有故事性短片看上去舒服的关键其实就在于风格和色调的一致性。柴老师的短片整体走的是一个偏暗色调的末世废土风格,那这一点一般可以通过挑选合适的大模型或loa组合来实现。
他可能会要求创作者在前期进行大量的实验,来摸索出一套合适的配方,并且在后面的分镜创作里一直沿用下去。那在色彩上他采用了红白的主色调,呼应了i game的logo配色。这个需求其实通过色彩相关的关键词传递给模型,一般都能比较好的实现。而提示词往往是细化这种电影感画面的关键,因为这种画面一般会包含很多的信息要素,让画面变得更厚实、更耐欣赏,不是用简单提示词暴力抽卡就能做出来的那陈老师也分享了很多自己优化提示词的心得,包括去使用专门的提示词工具来提词,我觉得都是大家可以去参考的。我们今天要看的最后一个片子,创作者有两位,分别是阿文和海星。阿文老师是国内最早的ai技术分享者之一,他的个人经历非常传奇。
我其实在他做p p t的时候就开始关注了,后面看着他开始研究blender和a i g c。从最早的disco division到后面的mid journey stable division,就连s d开源的消息我都是看她分享的资讯才知道的。他应该是我和很多其他小伙伴的启蒙老师了,而这次的作品是他和他的好朋友导演兼ai艺术。叫海清老师一起创作的那他们给大家带来的作品是什么样的呢?哦,开始了一个弱控制的风格转会。这个巧克力的形体非常流畅自然的。啊,背景里面一直也有一个i d m的logo。
你应该会好奇这个背景为什么这么稳定啊,这个一会儿我们可以来解释一下。人体飘散的效果太酷炫了。和前面两个片子不一样的地方在于,它是以转会为主要方式创作的。转会就是将一个已有的视频作为参考,在它的基础上生成一个形象类似但风格完全不同的新视频。在具体的操作流程上,两位老师先在版权素材网站上搜集好了合适的舞蹈视频素材,将它们处理后输入到conf u i里,基于animate deep搭建的转会工作流里去生成。animal deep现在基本上是风格化转会的标配了,因为它保持了生成作品的连贯性,不会轻易闪烁变形。
对了,为了避免庞杂的背景对转会造成影响,他们特地使用了一组叫做sam加grounding dino的智能抠像模型,把人物分离出来单独进行了转会,同时方便了去设计背景里的logo元素,横穿面仍然是控制logo形象的关键,也负责维持转会的结果和原画面的相似性。说实话,我一开始觉得他们可能用的是dept或者是soft ap这种比较常见的方案。但看了阿文老师的分享以后,我的感觉就是我还能这样的吗?我们在实验过程中发现control q r q模型在对原素材的黑白区域会有一个非常明显的响应。白色就是百分之百的控制,黑色就是百分之零的控制。我们可以通过控制原视频的黑白值来控制生成视频的效果。这也是为什么我们最后基本上选用了第二个背景替换方案,也就是说直接在p p t上面绘制黑白图形。
除此之外,在这个转会的过程里,他们用来控制风格转换的方式也非常巧妙。就是i p adapter,并且靠专门的风格化模型,它会更加清亮一点。而相较于提示词,它的风格控制效果又会相对强一点,就像你看到的这样,只需要上传一张风格的参考图,就能把人变成你所看到的火焰、雪花,甚至是巧克力。做转会类的工作对算力的要求就更高了。以前刚玩s d的时候,我也很喜欢搞转会,但动不动就要花一到两个小时去跑一个两分钟的视频。但在ultra family专家通力的i game四零八零super显卡的加持下,基于excel模型跑一个三十帧的测试视频只需要不到两分钟的时间,平均单帧生成时间还不到四秒。
而且现在不光是硬件算力提高了,invidia在软件层面也做了很多优化。比如他们官方开发的tensor r d加速库,目前也可以支持在coffee ui里使用了跑s v d这样的视频模型,也能提供百分之四十以上的速度提升,对于创作者而言非常实用。而他们就会借助这样的速度优势,在小样本上先快速的测试,在不断的迭代风格,直到找到了合适的方案,再推进全片的转会。好,那这几位老师的片子我们就全部拉完一遍了。哪个作品让你的印象更深刻呢?其实三位老师为作品都专门录制了一个详细的幕后讲解视频,发布在了自己的账号上。那想进一步去了解学习的朋友,也可以关注他们,收看视频了解更多。
另外,这里面讲到的很多技术,包括control net、ip、ada form, 我在这个频道里也都制作过专门的教程,关键词搜搜应该也能为你提供一些帮助。这些辅助ai视频创作的技术在本地的高效运行,离不开性能出色、算力强化的设备。像几位老师在视频里展现出的高效创作流程,都是在搭载了七彩虹g force r t x四零八零super显卡的idm ultra family电脑主机上实现的,除了出色的性能以外,它的颜值也非常出众,酷炫的r g b灯效搭配波普风格的特色外观,可以在创作的过程中帮助每一位艺术家激发各种独特的灵感。看完之后你又有什么感想呢?如果要做个总结,从这些作品里,我看到的其实并不是今天的ai有多厉害,能做出多酷炫的视觉效果来,相反,他们还远没有达到完美,仍然需要大量调试和前后期的处理来让他们达到交付的水准。如果离开了这些创作者的编排设计,那他们可能并不具备任何特别的欣赏价值。就好像也。
夏老师说的,无论a i如何发达,它生成的始终是镜头。最后一定是要通过我们像一个导演一样将它整合在一起。三位老师在分享里其实都不约而同地展现了这一点。所以今天的a i视频创作,其实核心仍然在人的身上。真正决定一个作品好不好看的,仍然是创作者本人的审美和创意。而ai生成的画面只是他们的众多表达方式之一。
不过这句话也可以从另一个角度去表述,就是生成式ai的确赋予了每一个普通人去实现任何创意的方式。如果你也有很多天马行空的想法,但却因为没有一门专业的技能来帮助你把它们变成现实,那现在不妨开始尝试接触一下这些用ai做视频的新技术吧。因为他们很可能是对你而言性价比最高的一种表达想法的方式了。以上就是本期视频的全部内容了,感谢你看到最后,这里是南里,我们下期见喽,拜拜。