对很多a a绘画的爱好者来说,这两天最大的新闻一定是s d x l一点零。这个号称是迄今为止最厉害的图像生成大模型的正式发布。在他的带领下,stably fusion即将迎接开源以来第一次真正的进化。试想一下,我们将来说的作画的时候,或许可以不用在吟唱冗长的咒语,配置繁多的lara甚至完全不用任何扩展插件。没错,很多关于它的传言都是真的,但我猜现在点进这个视频的你,心情大概是一半的紧张激动加上另一半的烦恼和困惑。它到底是个什么东西?要在哪里下载,如何去使用,以及对我们现阶段在safety fusion上的学习和应用又会有什么影响。说直白点,我用了会怎么样,不用又会怎么样呢?不然丸子了在这一期视频里,我想为你针对s d x l做一个全面的科普和应用讲解。看完以后你不仅可以学会将它手把手部署到你的web u i中出图作画,还能了解它对于你探索ai绘画的意义。
相信我们一个a i绘画的新时代马上就要来了。一句话概括,s d x l是stably fusion的开发公司最新开源出来的图像生成大模型。它的参数总量达到了百亿的级别,是之前v一版本的十倍左右。根据官方数据,相比起一点五二点一版本的s d使用者对生成图形审美偏好的评价也有大幅提升,就是用过的都说好。之前官方其实还发布过一个s d x l零点九版本,但当时只可以在更为专业的康复u i上使用,体验的人并不多。而这次开源的一点零版本是可以在绝大多数朋友正在使用的a四一的web u i上运行的,终于可以算是一个消费者版本了。那s d x l这个东西到底厉害在哪里?和我们曾经使用过的s d模型有什么不一样?首先要讲的也是最重要的一点,就是它对提示词的包容度变得非常非常高。从前我们写提示词除了准确描述你想要的东西以外,还要加入大量诸如mater peace、high quality之类复杂晦涩咒语来提高产出质量。
但s d x l支持以非常少的提示词来进行描述,并且不需要在质量方面额外验证。输入一个在森林里漫步的女孩,指定使用真实摄影照片风格。除此之外不加任何质量提示词,也不加任何负面提示词。excel生成的结果是这样的,看上去还不错,照片真实感很强。为了对比,我特意找来了很早以前的一点四版本的stable fusion模型。生成的结果吗?是这样的。而即便是一些经过微调的老版本模型,在比较低的提示词水平上表现很多时候也是不尽人意的。这样一对比你就能看出它的优越之处了。
此外有一个小细节,原来我们会要求以磁条式的方式向a i传递信息,来提高引导a i效率。但excel能够更好的识别自然语言,从而实现更好的用嘴出图。做个对比,同样是描述一个场景,使用一整句话来描述和拆分成单词其实没有太大区别。而在旧版本的模型里,只有将概念词条化,并且将我们想突出的核心元素权重提高到一点三,才能在画面上得到妥善表现。而纵向对比,xl在对这些概念的理解上比这些老模型确实更为准确,对意境氛围还原更加到位。因此,在肉眼可见的未来里,写提示词这件事情的门槛会被逐步降低。对自然语言的进一步支持,也会让许多英语基础薄弱的朋友做起图来更加轻松。现在翻译软件遍地跑嘛,讲英语很简单的啦。
第二点则是更大更高清的分辨率。在之前的版本中,sd基础模型使用的训练样本尺寸大多为五百一十二像素或七百六十八像素的正方形图片。这导致我们在使用较大的分辨率作图时,a i会误以为是在生成多张图片,从而让画面中出现多人多头的现象。分辨率对图片质量的影响是非常显而易见的。如果你做的图只有五百一十二像素,那细节再这么丰满,看上去也会非常粗糙。但x l的基础训练样本扩大到了一千零二十四像素,这意味着它可以直出更大尺寸的图片。经过我的测试和对比,稳定性是更高的。结合前面所说的第一点,也不容易出现肢体错乱,画面混杂的现象。
换在以前要实现这个精度的高分辨率输出,必须依赖高清修复或者cut decision一类专为高清升级打造的扩展才能做到。说到精度来聊聊第三点,单纯使用xl生成的图片比起以前会具有更多细节,这一点要归功于它创新性的refiner结构。这次开源出来的大模型其实包含了两个部分,一个是基础模型,另一个被叫做优化器,均为safe tensor格式,各占七g左右。base model是基础模型,平时出图作画主要是使用它,在你得到了一个想要的结果以后,可以再使用另一个refiner模型对它进行精加工,使细节水平得到飞跃。在web u i里要充分利用这个refiner,你可以在完成一次生成以后,将结果输入进土生图里重考一遍,然后把模型切换为这个refiner,重回幅度建议在零点五以下,其他参数保持完全一致。以及生成细节是不是就变得更加丰满了呢?如果你想深究refiner的算法原理,可以查阅官方刊发的论文。它有点类似于我们在用a detail的插件对面部局部重绘时一样,会识别出那些需要细节的部分,额外进行加噪续造来获得更高清的结果。其实呢这个图山图再跑一次的操作算是个土方法。
最有效的使用方式其实是在conf y u i利用多重节点实现一种类似于前半段在base上跑,后半段在refiner上跑的流程,可以干净利落的一次产出非常高质量的图片。如果你感兴趣可以看视频最后一部分的教程内容,我会为你梳理一个在web u i中就能利用conf u i搭建excel出图工作流的方式。第四点则是生成内容更加准确。首先x l似乎已经初步具备了能写字的能力。要知道在以前扩散模型生成的图片里涉及文字的元素一直非常别扭。但在给x l下命令时,你可以尝试直接使用类似的句式,让它生成一个写有特定文字的图片。我试了不能说毫无瑕疵,偶尔会多几个字,但至少能看得出它在辨认这些文字结构,比起老版本模型来说效果已经非常不错了。这项技术的进步对ai绘画的影响可能是更为深远的。
因为现阶段a i g c没有被广泛应用在设计领域里的一大阻碍,这是对文本内容的精确呈现,克服这个难关会激活它在更多应用场景里的创新。还有一个关键的点是人体结构准确度的大幅度提升。ai不会画手这件事情是过去一年里鉴别ai生成的一大主要特征,但根据我的测试,excel已经初步具备了画好手的能力了。你可以在任意一张地图里加入诸如hands up之类的提示词,让人物把手举起来,和文字一样。虽然偶尔还是会出现六指琴琴魔的经典场面,但a i已经算是能完整识别出手的这个人体结构了。换在以前你需要使用大量的负面提示词词嵌入,甚至动用插件才能画出一个过得去的手。等这块拼图也被完善了以后,我们就真的没法通过键手来识别ai生成的图片了。最后x l为使用者提供了更丰富的艺术风格选项。
s d x l的默认模型风格其实更接近于照片中真实性能,但根据官方介绍,你可以通过提示词让它在十余种不同风格之间做无缝切换。这些风格包括数字插画、胶片摄影、三d建模、像素化,甚至是儿童绘本。你最喜欢里面的哪一个呢?换在以前这种画风的切换必须通过微调大模型或者是合适的画风loa来实现。但在以后这句话我都快说累了,以后或许就不需要了。看到这里你一定觉得s d excel很厉害,并且迫不及待的想要尝试一下了,对吧?但其实我做这期视频的核心出发点,反而是建议你不用急着去下去用。s d x l的出现对于b d fusion的使用与应用,其实意义更大于作用的本身。这个意义到底是什么呢?回顾一下我们刚刚提到的所有优势,不是指向更高的产出质量,就是更低的操作门槛。step division一直因为其高昂的学习成本而被使用者们诟病。
复杂的提示词语法invalids lara和各类扩展插件。不花上大几节课的时间,根本学不明白怎么用。而x l提供的这一套组合拳,让一个新手能在完全不研究这些东西的情况下,以更简单的方式做更好的图。这些便利语说是恰好就是隔壁月收费六十美元的me journey骄傲的资本。m j一直以来就是一个包罗万有式的大模型,为用户解决所有问题的将靠嘴出图发挥到了极致。但现在sd也能做到了,在x上面也有博主展示了excel和m j的出图品质对比,可以说是不相上下。再结合control n e t的扩展插件,我们或许能得到一个可控性更高的major ney。这谁用了不说一句真香呢。
现在压力就来到m g这边了。如果你是一位ai绘画的重度爱好者,我会很推荐你尝个鲜,提前感受一下这个美好的未来。但如果你只是一个初学者,或者更关心它的实际用途的相关行业从业者,那我觉得可以再等等。原因其实也很简单,s d x l是一个基础模型,没有经过微调,也并非为了满足某一个特定需求而量身定制的。它虽然也可以绘制插画风、日漫风的二次元风格的作品,但实际效果一般可能不如counterfeit a o m等经过了反复微调融合的老牌模型,在其他风格领域中也是类似的。今天应该没有使用者会拿官方的基础模型,比如我们刚刚拿出来对比的一点四来直接出图。但也千万不要小看他们的作用。现在大家广泛应用的一系列热门模型,其实都是基于以前的一点几、二点几版本的官方模型微调出来的。
所以将来我们一定能体会到excel的这些好处的,但不一定是通过使用excel本身,而是去用基于excel训练出来的新模型。目前siva已经上线了s d excel的模型训练活动,预计很快就会有一系列用excel微调的checkpoint laura p供大家使用。我的判断是s d excel的作用真正传导到应用端应该还需要一到两个月的时间。到那个时候,我们才会见证excel带来的这一轮全新进化。最近我也在筹备基于excel进行模型训练的相关教程,如果你感兴趣,可以照例把想学打在公屏上,做出来了以后我会第一时间和你分享的。有一点必须要说明,在excel作为大模型的基底模型被普及了以后,原来很多基于一点几二点几版本训练的lara可能会存在一定兼容性的问题,就相当说从一点五换代到二点零是一样。所以到时候我们的模型库存可能也会面临一次小小的洗牌,但那些旧的模型还是可以用的。所以你也可以维持现有的模型组合不变,继续用老方法出图。
除此之外,excel也不会过多的改变原有stable fusion与web u i的操作方式。操作的简化并不意味着明现阶段在学习探索的一切就失去了意义。一句话归纳,在以后得到同样的产出结果,需要的操作可能更简单,而使用同样的操作生成的图片精度就会更上一层楼。说直白点,它是一种进化,而不是替代。到那个时候,正在学习的一切会成为我们去探索更多令人激动的新课题的基石。对了,如果你是一位模型训练者,有基于自由美术资产训练模型需求的从业者,再或者是正在基于stability fusion搭建生成工具的企业平台,那真的应该尽快用上它,开始使用它,训练新的使用模型,或者开发相应工具,并在这样一种新的模型应用秩序被固定下来之前掌握它的精髓。目前你可以在官方的hugg fac e主页和一些模型网站上下载到这两个模型。为了方便大家下载,我也在网盘里备了一份,如果你有需要,可以在视频简介中查收。
要想在本地顺利使用这个大模型,你需要先将你的web u i版本更新至最新的一点五版本。如果你是自主部署安装的,请在web u i的文件夹里打开命令行,地址栏里输入c m d,敲回车就可以了。然后分别输入这三行代码,敲三次回车,看到这个已经是最新版的提示以后,再运行文件夹里的v u i user点b a t文件,看到最上方提示版本号为一点五点一就完成更新了。对了,如果你有比较长时间没有更新过ui了,建议先将根目录里的v e n v文件夹删除,再用执行上述步骤,让它重新下载各项依赖。如果你使用了一些开发者制作的整合包或启动器,请根据作者的相关指引进行更新,一般会比敲代码更简单。比如非常受欢迎的修炼整合包,打开启动器,点击版本管理点一点五点一版本右侧的切换,就可以快速实现版本跟进。更新完成以后,把这两个模型都放进web u i文件夹里的model state fusion文件夹内。打开web u i这个时候你就应该能在左上角的模型选单里调用它们了。
但需要说明的是因为s d excel更为强大,但是它的配置需求也相应有所上升。官方推荐在拥有八g以上显存的显卡上运行,比起原来最低六g即可畅玩的门槛又高了一个台阶。要用excel出图的方式和其他大模型没有任何不同,但在写提示词的时候,可以尝试着用刚刚我提到过的更为简单的自然语言进行描述,并利用我列举的一系列风格提示词,引导他给出不同画风的答案。有一个小提醒,在上传图片时如果碰到类似这样的报错,大概率是因为v a e的不兼容,可以把出头v a e设置为五就可以规避类似问题了。在调用final的时候,一种选择就是我前面说的,在纹身图以后再也调用一次图生图来进行重绘。而如果你想在web u i里搭建一个完整的操作链路,就一定要使用到config u i这个更为专业的工具。config u i可以被独立部署,也可以被离线到许多软件应用中使用。如果你是一位web u i的使用者,可以通过这样一个conf u i的扩展,直接在s d里使用它,输入conf u i就可以找到。
和以往一样,我也在简介附了仓库地址和下载包。点击安装重启web u i,你就可以在上面看到这样一个coffee u i的标签了。如果你之前有独立安装过coffee u i,在设置里填入coffee u i的路径就可以快速调用。如果没有,只需要点一下下面的这个按钮,就可以自动下载并配置coffee ui,再重启一遍就可以使用了。coffee u i的一大特性是它的节点化功能,可以通过多重节点实现各种功能的灵活组合运用,形成一个完整的工作流,以更低的操作成本调节参数并实现更好的图像传输效果,从而广泛被一些专业的工作者使用。看到这一个框框线线头都大了吧。别紧张,它的另外一个优点在于,这些工作流都是可以复制利用的。这里我为你找到了一个由一位国外开发者seat搭建的x l一点零工作流文件。
将它下载下来以后,点击右侧的load按钮,加载这个j s o n后缀文件,它就会自动在coffey中为你把该有的东西都配置上了。在coffee u i的界面中,鼠标滚轮控制界面缩放,左键按住拖拽,可以让镜头聚焦在不同的节点上。在左上角的三个文本框里输入提示词,上面是正面,下面是负面。左边用自然语言描述,而右边作者会推荐你将其中的一些核心概念体现出来,做一个强化。右边这一部分节点设置的是出图的分辨率,采样部署算法等。web u i中也有的参数,只是形式变了而已,但含义是完全一致的,其他地方都不用做额外的设置。除了右下角这里有个用于refiner的upscale model,有点类似于我们在使用高清修复时选用的算法。默认的这个n m k d super skill不是web u i预装的,所以会报错。
选择一个你电脑上有的就好,比如这两个r e s r g a n,再点击q proms,就可以在右上角验收生成结果了。因为conf u i的架构,它生成图片的综合效率会比web u i快非常多。看不到几秒的时间就完成了输出了一幅refine过后的高细节图片。这就是调用conf u i来充分解放excel潜力的一个基本操作方式了。我讲明白了吗?通过这个小小的应用,你应该也能看出一些康复u i的优势所在。这里也做一个小调研,如果你对conf u i的进一步应用和玩法感兴趣,可以在弹幕里敲个一,不感兴趣就敲一个二。我会统计这里的数字比例,看看有没有机会在这一个领域为你深入探索一番。如果你的配置不允许,也可以通过官方提供的两个在线渠道来体验。
一个是clip draw,操作简单,但可能需要排队。另一个则是dream studio,每天限额大概十多张左右。一些提供在线生活服务的网站应该很快也会给大家提供体验的机会了。以上就是本期视频的所有内容了,如果他对你了解s d x l有一定帮助,请别忘了点赞投币三连支持一下。这期视频得到了tap for fund的赞助与支持,作为一家制作并发行全球顶尖s l g手游的游戏公司,tap for fund也在不断探索a i g c,并致力于将其投入行业应用实践中。你对excel带来的这一次全新进化又有什么样的看法和预测呢?欢迎在评论区交流一下。这里是南美,感谢你看到最后,我们下期见了。