今天我们来讲the phone,你可能不知道diffusion是什么,但我敢打赌你一定刷到过像这样的视频。像这样基于一个特定画面开始变化,演化生成出各种天马行空的内容,在过去一年里好几次引爆了短视频平台,并以一系列脍炙人口的花名,像什么无限穿越、瞬息全宇宙闻名江湖。它是一个基于stability fusion开发的短视频生成项目,完全免费开源。国内外的视频创作者利用它做出了各种千万级的爆款视频,让它成为了今天我们讨论a i视频创作时绕不开的一个工具。可以说reform是a i视频生成领域的一朵奇葩,在大部分项目着力解决视频的一致性和连贯性,是对方保留了a i上传视频的一部分原汁原味,并利用它的跳跃多变创造了非常多富有艺术感的作品。很多知名品牌的广告里也出现过deform的身影,像英特尔就曾经邀请国内著名的a i g c艺术家土豆人老师,用d f o m打造了一条a i视频宣传短片,来帮助他们这个搭载了三大a i引擎,可以本地运行二百亿参数的大语言模型,在四秒内实现stable fusion生产的全新酷睿ula处理器。他们对a i视频的领域的发展也非常感兴趣,于是便邀请我制作了这样一期关于reform的教程,来帮助大家快速无压力的掌握这个工具的使用方式。准备好了吗?一键三连我们开始。今天的一份探索之旅吧。对于大家来说,目前最方便的deform使用途径就是stability fusion web u i中的defund扩展了。在扩展列表里搜索deform,就可以将它以扩展插件的形式一键安装到你的web u i中了。
安装完毕后,关闭命令行,重启web u i界面最上方会多出一个deform的标签,我们这节课里的大部分工作都会在这个标签内完成。和大多数功能强大的扩展一样,deform里面的各种功能琳琅满目,一个个参数看上去深不见底,该怎么上手进行操作呢?别紧张,让我们用它来做一个简单但却十分有趣的视频吧。地方视频给观众最大的感受可以概括为两个字,变化。在前面的案例里,我们总是能看到这种从一个画面变成另一个,一种东西变成另一种的神奇效果。现在尝试在你的脑海中想象三个不同的画面,可以天马行空,毫无关联。想好了吗?不用告诉我,把它们写成三串可以独立描摹画面的提示词。打开deform的提示词标签,默认情况下这里会有四行提示词格式都是一个数字跟着一串引号装置的提示词。此时小心的把我们刚刚想好的这三串分别替换进前面的三个引号里,第四行删掉,连同第三行结尾的这个小逗号,下面的两个选项则是一。通用的正负面提示词,你可以在这里输入一些常见的起手式来把控质量。比如什么best quality in msp peace,一些你常用的负面词嵌入也可以塞进去。绘制的参数在哪里设置呢?来到第一个运行框里,这里面的尺寸就是你最终生成的视频尺寸。
我们先设定一个最基本的五幺二像素,其他采样参数和文生图里的含义都是一样的。使用的大模型也会跟随web u i左上角的设置,不过也有一些生成视频的专属参数是不需要调节的。我们在隔壁的关键帧标签里来到这里,我们只做三件事情。第一,将缩放参数后面括号里的这一大串公式改成一个一点零三。第二,在平移y的数值后面敲一个英文逗号,随后用类似的格式输入如下的内容。第三,回到最上方,把视频的最大帧数修改为九十。这个最大帧数定义了我们的视频一共有多少个帧及一个静态的这一个画面构成。换算成秒多少呢?我们来到最后一个输出的标签,这里最上方有一个十五的设置,代表每秒十五帧,折算下来就是一个六秒的视频。下方的大部分输出参数可以维持默认不变,但如果你想让你的视频变得更流畅的,这里的最下方的针差值一项的设置。你把引擎从五改成fm点击生成,你就可以静静等待这个地方视频出炉了。按照默认参数,你需要等待的时间大约等于你常规情况下绘制四十五张图所需的时间。
绘制的过程中在右边会出现每一帧的缩略图,命令行里也会不断反馈每一帧的绘制信息。等你看完这期视频就知道里面描述的各项参数的作用了。绘制完毕以后,右边展示的是静态的图片,你需要点一下上面的这个大按钮,才能打开视频预览。看,一个充满变幻、奇妙莫测的deform视频就做出来了。通过这个基本的案例,你应该已经了解diffusion的绘制方式是什么样的了。我们会通过刚刚输入的提示词,设置好这个视频的绘制内容。这些提示词是分段的,每一行代表一个时间段内的绘制内容,从而可以让里面的内容不断切换。视频每生成一帧图像,我们就会根据设计好的运动参数把它展示,进行一些轻微的变换,比如放大一点以后再输入回去,配合新的提示词做类似图生图的操作,产出下一帧的图片,这样重复进行四十五次操作以后,就得到了我们最终看到的这个视频,一个在不断放大又不断幻化出不同形象的视频。这就是deform做视频的一个基本模式。理解了这个大。框架再来看iphone的各项功能参数就轻松多了。
事实上它最核心的几个功能板块,我们刚才已经全部体验了一遍。直接影响视频内容的主要就是两个方面的参数,提示词和关键帧。我们先看提示词,正如刚刚所介绍的,这个格式就是用来给不同的提示词分段的。最前面的数字代表了后面的提示词从多少帧开始生效,直到下一行开头的这个真数结束,这个默认的预设变成每三十帧帮我们切换一个画面,把一百二十帧的视频分成了四段,下方的正负面提示词默认会被加入到每一段里,共同参与生成。但如果想对某一段特别的应用,一些反向提示词就可以在这段提示词后面加上一个negative的标识,再在后面输入它的专属负面词。你可以按这个格式自由设计每一个分镜里的内容。提示词的间隔不用相等,写几段也都是可以的。包括只有一段的情况,a i就会从头到尾都按这一段来。但要注意你的格式需要严格和预设保持一致,因为它本质上是一种编程里的jason脚本,如果语法规则有误就会报错。如果你也看到了像这样的报错信息,那请马上检查一下你的每一行提示词的结尾,最后都要有一个半角逗号,唯独最后一行是没有的。在你不知道很长的一段提示词里到底出了一些什么问题的时候,也可以将它复制进一些jason的校验工具里。
它会帮你指出错误的大概位置,再去修改也会轻松很多。随后是关键帧,先来看最上面的参数。一开始我们设置的是九十帧,为什么我会说是画四十五张呢?因为这里我们设置了一个生成间隔的参数,就是每个x帧生成一帧。一方面它会影响生成速度,我们实际需要生成的帧数就等于帧数除以间隔,间隔越大绘制当然是越快的。而另一方面,它又会一定程度上影响视频观感,太低了闪动会很频繁,看着就不舒服,太高了会有迟滞感。我个人的推荐水平是二到三,再搭配d form自带的补帧功能做真差值,可以兼顾绘制速度与视频流畅性。下面第一个需要着重设置的参数是强度,上一帧影响下一帧的强度,它类似于图生图里的重绘幅度,但是是反过来的,影响的强度越大,下一帧就越像上一帧,反之则越不像。我有一个更好记的说法是锁定画面的强度,如果你追求画面的连续流畅,则可以尝试零点七到零点八的高强度。反过来追求迷幻多样,就是是零点。三到零点五的低强度,再往下一系列运动参数是deform里最核心的一部分,因为他们全权管理了这个视频的运动过程。首先define里的动画生成模式分为四种,通过参数设置驱动呢主要是前两种,每一种模式下参数都略有不同,二d参数相对比较好理解,比如缩放填在这里的数等于下一帧相较于上一帧放大的倍数。
刚才删掉的那个默认设置是一个关于真数的数学函数,如果你觉得难以理解,可以从一个常量入手。比如刚刚设置的一点零三,别看它小,但因为每帧都会乘一次,累积起来的运动幅度会非常可观。那缩小呢设置一个小于一的数值就好了。比如零一点九八角度也很好理解,填入的数值等于每秒旋转的度数,可以根据数据数据最后的运动方式,比如为一一一一十五针就会转过十五度,正值逆时针方向方向。比如旋转中心在画面中间,那你也可以以横向竖,竖这个代表的就是旋旋转中心相相对于画布宽和高的比例表示的坐标。至于平移就更好理解了,在这种模式下,轴代表横向距离,为轴代表纵向距离。同样。在这两个地方设置的数值代表每秒往对应方向移动多少像素,x和y的正负值对应往左右或上下的不同方向。我总结出了每个坐标对应的口诀,你可以简单记忆一下。理论上使用二维参数就可以完成绝大多数画面变换效果了,但使用二维变换会让画面有时候显得太过平淡。这个时候我们就需要切换到三d模式来调用三弟的参数,实现真正的三维空间运动,注意在你第一次使用三d模式的时候,需要下载一个约一点三g的三d推理模型到你的模型文件夹的指定位置。
如果你通过s d直接下载失败了,你可以手动下载模型放置到对应位置。在空间运动里定义运动的方式又变得有所不同了,比起二维平面,三维空间多了一个z轴来支持前后方向上的画面距离。如果你有三维软件操作经验会比较好理解一些。x y平移和在二维平面上是相同的,而在三d模式下,缩放被转化成了z轴的平移数值,正值代表往前拉,负值则是往后拉。至于旋转在三d模式里转化成了绕某一根轴的翻转。为了方便。我同样将三根轴数值控制的运动规律总结成了你应该能看得懂的文字。你可以给视频点一个收藏,如果忘了可以随时回来查阅一下。在平移旋转以外,还有一种额外的运动方式是透视翻转,它是利用二d的变形手段来模拟三d的视角变化,但效果会稍微僵硬一些。我们的呈现方式又受到下面的消失点数值的影响,但一般我会建议你保持默认来取得一个比较正常的效果。把这么多运动参数梳理了一遍,你觉得复杂吗?现在还有更复杂的呢。
为什么这些数值前面都有个零冒号呢?和提示词一样,它也可以进行分段控制。在我们进行到了一定程度以后,换一种运动方式。我们刚才输入的数值其实就是控制视频的y轴位移做了一个变化。在这一个直观的例子,我们让deform绘制一个八十帧的画面,前半部分设置x轴正式,后半部分归零,同时从四十开始给y轴赋予一个正式,这样我们就能实现deform眼镜的转向运动,这种玩法也可以称之为fm m里的关键帧。现在你知道这个tab的功能名称的由来了,你可以把这种运动的关键帧和提示词的关键帧搭配在一起。使用在切换运动方式的同时切换画面,从而实现非常神奇的转换效果。设置了关键帧以后,数值会线性的从一个移动到另一个,从而让转变不会很突兀。而它更厉害的地方在于,不光运动参数可以被关键帧操控,任何一个以类似的形式被表示出来的参数都可以。比如强度c f g随机种子,甚至是迭代步数。采用方法模型名将玩的富有创意一点的话,你还可以让这个动画前半段用一个模型泡,后半段用另一个,实现画风的无缝切换。对了,我们刚刚的示范里都是赋予这些参数一个固定的数值。
但就如同一开始的缩放数值一样,我们可以使用变量p也就是当前的真数定义一个随时间变化的参数。哪一种最简单的情形举例将控制z轴位移的数值设置为零点二乘t并把帧数适当设置的高一些,你就会得到越来越快的镜头加速前拉的效果了。到此你意识到了吗?其实你放作品里的那些复杂的空间运镜,就是一个个这种独立的运动数值的变化支撑起来的。这里我为大家提供一个类似开头示例视频的运动模板,你可以将里面的一整套数值填入对应的选项下。帧数设定为一百五十,就可以实现一个从正面转向侧边,然后向远处旋转拉近的穿越效果了。但你肯定会好奇,我们又是怎么做到从一开始视频定格的那一帧来开始这个变化的呢?这就要归功于iphone d一个绝妙的隐藏玩法。初始化它最基本的功能是图片初始化。简言之,你可以上传一张图片,把它作为演化的第一帧。想要实现类似开头的那种效果,你只需要播放视频到一定进度,暂停截下这一帧的静态图片,然后将它导入到初始化图像输入框里,并根据图片的尺寸设置对应的绘制参数。初始化选项里有个强度的设置,它影响的是在第一次重绘时改变这张初始图像的程度。推荐数值在零点六到零点八之间,再把运动参数填好,提示词写好,def o m就会以这张图为起点,运镜生成后面的画面。
导出视频以后,我们再把它拼回原来的视频里看,开头那些爆款视频的效果就做出来了。它让deform和一些常规的视频、图片之间的交互变得有趣了起来,也由此衍生出了许多有趣的玩法。其中一种就是。用deform来精确呈现某个特定形象。比如logo这里我们向图片初始化,导入一张logo图片,然后生成一个deform视频。这个logo慢慢变形成了各种奇奇怪怪的形象,看上去和刚刚没有任何不同,对吧?但其实只要我们将这个动画放进剪辑软件里,将视频片段倒放一下,同时把这张初始化图像皆在最后面,再加上一点点小特效,看你就得到了一个出人意料、富有创意的片头logo生成动画了。这颗由deform汇聚而成的芯片就是英特尔新发布的酷睿ultra处理器。过去一年里,从大语言模型、文生图再到纹身视频,我们见识了生成式ai的飞速进步,以stable标准为代表的开源本地大模型成为了一种全新的创作途径。而这次升级不仅是一个全新的名字,四十年以来最大的架构革新。对于轻薄本的用户而言,它还是一把打开a i g c大门的钥匙。我手里的这台宏碁非凡go a i看着很小很可爱,不像是能玩a i的对吧?但它搭载的酷睿ultra一五五h c p u二可选,以及内置的ai助手程序,可以帮助我们在这样的体量上一键调用,包括a i对话。
ai绘图在内的各种a i注册功能,你的离开a i电脑非他莫属了。虽然是用核显作图,但得益于open v i n o对s d的优化以及l c m等技术的加持,标准分辨率图片的绘制时间已经能跑进两秒以内,还可以支持高分辨率control net等进阶绘制功能,而且这些所有模型在不联网的情况下都是可以成本低运行的。二点八k分辨率十比特色深,高达百分之九十屏占比的oled超感屏,给日常的创作体验带来了不少提升。搭载的专属ai处理模块n p u更是可以支持我们低功耗运行各种图形增强功能,提升高达百分之三十六的续航时间。对了,还有不少地方的应用姿势是我们还没讲完的,你的续航怎么样?还能学吗?我们回到初始化,除了图片初始化以外,也是我们还提供了其他几个不同的初始化选项。一个是蒙版初始化,它可以帮助我们借助一个蒙版严格限定画面去inform的范围。要怎么用呢?首先我们可以拿文图图生成一张主体清晰的人像图片,然后扣取人像部分作为模版。可以手动进设计软件操作,也可以支持之前讲过remove background的扩展智能抠图,再将原图导入作为初始化图像的同时,我们在这个标签里面。蒙版图片,并设定与蒙版重绘相关的各项参数。此时你的人像部分应该是黑色的,背景白色,如果恰好反过来了,那就再把反转的选项勾选上,点击生成,你就可以通过它实现人不动光背景动的效果了。另一个则是视频初始化,它可以帮助我们在对方里实现另一种形式的视频转会。
同样以一个实操案例来说明。这里我准备了一个长四秒,帧率三十的小视频,共一百二十帧,把它的路径复制下来,填入视频初始化的路径。这两个参数分别指从视频的第几帧开始提取,第几帧结束。如果一整段视频全部都要,那就分别设置为零和负一一。视频提取一次对视频的影响类似于一开始提到的绘制间隔。这里我们设置为二,要启用视频初始化。你需要配合开启关键帧中的视频输入。开启后所有运动参数会被隐藏,帧数也会和视频同步。通过书写提示字,我们让deform将画面改成一个火星上的未来程序,看效果就出来了。在绘制的form视频的时候,我们也可以搭配插件里的control标签使用。其实即便不使用初始化视频,也可以开启control。
在这里上传视。路径作为控制的控制源,这样画面也会按照视频的形象组织生成,但自由度会更高一点。然而一方并不是致力于构建连续且流畅的视频的,所以我并不经常这样去使用。如果真想上control l a不如配合anim dif去做流畅度更高的转会。初始化图像只能控制这个视频的第一帧是什么样的,但在deform里还有另外一个功能,可以在整个动画的过程中插入多张图片作为检查点,从而进一步控制视频的画面走向。它就是关键帧选项里的这个引导图像。一个简单的案例说明它的图像。准备五张内容不太一样的图片,展开后勾选启用,下方有一个和提示词类似格式的引导图像关键帧。将这五张图片的路径填入这五行内容后半段的引号里,将电脑上的文件路径直接粘贴进来,是需要将单杠转换为双杠来符合语法的要求,避免运行报错。这里的关键帧含义与提示词里的差不多,代表在特定的帧数上将画面变成后面的引导图像。里面的max f也是一个变量,代表视频的总帧数。
通过它计算出来的帧数,我们再来设计提示词并分配到对应的时间区间上,就可以制作一个在这几张图片中连续变。画的动画了怎么样?是不是也挺神奇的?仔细挑选或绘制你的引导图片,可以进一步丰富你的deform表现力,而它也令许多有趣的玩法成为了可能。例如把最后一张引导图片和第一张设置成同一张,就可以实现一个动画的循环播放。但注意这些引导图像同样会经过s d的重绘再填充进视频里,因而也只能作为一种有限的参考。当引导图像和当前帧绘制的内容差异过大时,也会导致这个突兀的过渡。你可以通过引导图像下方的一系列设置参数优化呈现的效果。因为篇幅原因,我们今天不会展开讨论,但我在视频简介里附上了一些资料链接,如果你感兴趣,可以从他们入手做更多尝试。在地方扩展里还有一些功能选项,可以为你的生成过程打打辅助。首先在这个输出选项里,下面的各项设置可以选择是否在生成后删除一些内容。比如单张的p n g图片,如果你不知道他们具体控制的内容,可以点击最上面的显示更多信息,就可以在操作的同时将辅助说明调出。如果你的硬盘空间不够,我会推荐你勾选这个删除图像。
deform生成的内容会被保存在web u i图生图的输出文件夹里,当引成时间作为编号保存下来。里面既有单张的图片,也有拼合在一起的视频。如果是连同编辑图片一起保存在,占用空间还是有点大的。你也可以手动把它们清理掉,节约一些空间。在这里你还可以给你的视频添加音乐,只需要把音乐文件在电脑上上的路径复制下来,选择文件并粘贴到这里就ok了。还有两个关键的功能,就是生成视频的差值与放大放大的选项。在这里可以视频的算法,我们在web m u i后期处理中使用的放大算法类似。但是视频视频放大特化过的直接绘制高分辨率图片不仅慢还容易变形。而d form就为我们提供了一个先绘制后放大的选项,可以在保证速度的同时优化视频频率的差值。可以可以了解视频的流畅度度的默认情况下按照十五帧看其实有点卡顿,因为我们生活中大部分网上的视频都是视频的方法。这个时候你就可以打开插值引擎的选项,通过a i补帧模型往里面再加点的。
我们一开始的我的我的我们的m m是两种不同的算法,我个人更喜欢费用一点。参数设置为二,就可以将帧率提高到原来的两倍。这里还有一个辅助选项,慢动作可以同步放缓对应的倍数,从而维持原有真率放大和差。质的结果会被保存到输出文件夹中,而不是直接展示在界面上,需要你额外去验收一下。另外作者非常贴心的制作了一个对已有视频做放大和差值的入口,方便你处理已经生成完的视频。你的电脑上有任何想要放大或补帧的视频,也都可以拖进来处理。在导入初始化图像时,你应该会注意到d f o m出来的整一个视频色彩都会受到这个第一帧图片的影响。原因在于deform采用了一种色彩一致性算法来确保前后帧的色调相似,从而不会有太大的跳跃感。在这个一致性的选项里,几种不同的统一方法都可以使用,但我试了下还是默认的l a b最自然。你还可以额外上传图片视频来作为色彩的参考,但如果你不想过分被它局限,可以关掉。在一些场合会让你的动画色彩变得更加鲜艳,内容更丰富多样。
色彩一致性旁有几个进阶选项,但我个人认为使用频率并不是特别高。大多数时候,你可以保持他们的默认来取得不错的效果。如果你想进一步深入挖掘它们的含义,你可以参阅敌方扩展的官方viki页面。作者在扩展的最上方提供了一系列对你进行探索非常有帮助的资料链接。同时在一些比较深入的应用板块,你也可以随处看到类。的质疑和这期视频里的内容结合在一起做学习,相信你很快就能摸索到这个插件的应用精髓了。因为这些奇妙的功能特性,deform成为了目前ai视频领域几乎是最为独树一帜的一个工具。那些千万级的爆款视频就能说明它的价值所在。不过严格来说,deform和一些我们之前介绍过的ai视频的工具,例如anima dev s v d runway等,算是两个完全不同的流派。但如果非要去做对比,我会说它的绘制速度要更快,配置要求也更低,外接功能的拓展性也更强。而它的缺点也是非常直接且致命的,就是跳就是陕a就是每秒钟都不一样。
同时它的生成机制决定了这个过程是完全不可控的。即便是同一套参数珠子跑两次也会有不太一样的场景,所以目前阶段它只能适用于一些整活属性的场景。我个人更倾向于把它视作一种风格化创作工具,而非一个稳定的视频生成器。想要做出精彩而富有创意的作品,一定是需要反复的尝试对运动参数提示词做调教的。不说别的,光是做这期教程,我估计都跑了几百个文件夹出来了。但这个过程我觉得还挺有趣的,就像是刚开始接触ai绘图时。一张张抽卡的感觉一样,每点一次生成都会去期待a i给出的未知结果。说不定在a i视频真正成熟了的未来,这些作品能被当成一种人类早期驯服a i的珍贵录像,慢慢来鉴赏呢。以上就是本期视频的全部内容了。在创作这期教程视频的过程里,我在不少环节中都得到了这台搭载了酷睿澳洲处理器的宏碁非凡go a i高能a i智慧本的帮助。在英特尔的努力下,i和i卡的a i g c生态正在不断完善。
我们就可以通过这样一台轻薄本将生成a i的能力装进背包随身携带。这应该就是他们所描绘的那个a i p c真正丝滑的融入我们的工作学习生活里的未来。如果这期教程对你有帮助,请不要忘了一键三连,这会对我接下来创作视频有很大的帮助。感谢看到最后,这里是是我们我们下期见,拜。