搞懂Prompt参数设置,零基础入门Stable Diffusion#AI保姆级新手教程 #Prompt关键词#AI绘画

他是奇异博士,时间宝石的守护者,复仇者联盟的好朋友,现任至尊法师。他是哈利波特邓布利多军领袖,死亡圣器的主人,霍格沃茨的传奇人物。而他是一个不会画画的设计师,创意行业打工人,练习时长两年半左右的知识区小透明up主。没错,就是我。他们之间看似天南地北毫不关联,但却有一个共同点,就是都被人称作魔法师。你现在正在收看的是我们的零基础stable diffusion入门课的第二节。在上一节课里,我们已经通过二十分钟的快速梳理,解决了stable division的本地安装,并成功绘制了属于你的第一张ai绘画作品ai绘画和魔法念咒有什么关系记得吗?作图的过程中有一个必不可少的环节,就是向ai输入用于描述画面的prompt提示词,因为大部分a i绘制作品的提示词是用英文书写的,很长很乱,而且穿插着各种奇怪的数字符号,就像是高深莫测的咒语一样,因此大家形象地把写提示词的这个过程叫做念咒,而我们就像那些魔法师一样,要通过吟唱咒语来辨出我们想要的结果。虽说ai是人工智能,但它和真正意义上的人类智慧还是有一定差距的。很多时候他并不知道你想要的是什么,因此只需要详尽的提示词来帮助你更好的指挥ai作图。这也是为什么念咒这件事情在ai绘画盛行的今天,已经慢慢形成了一门独立的可以去探讨研究的学问,你想学念咒吗?那不妨花上十分钟看完这期视频,我将带你系统梳理一遍提示词的基本逻辑、提示词的分类、提示词的书写方法,正面和反面提示词的区别、权重。

优先级逻辑,顺带再聊聊生成图的基本参数设置,批量出图设置的含义。学完了这些,你就能成为一位呼风唤雨的阿摩导师了。课程内容很干练,很充实,我建议你先点个赞再开始学习。本课讲解提示词逻辑的时候使用的是stable division。那我知道有很多朋友用的是另一款非常流行的ai绘画应用make journey。这节课的大逻辑框架其实是通用的,而m j b s d要更依赖好的提示词来做出作品,在提示词的应用层面更具深度。如果你希望看到一些关于n j的提示词教程,可以在弹幕敲个一,做出来之后我再来通知你。准备好就开始我们今天的魔法之旅吧。这节课我们来接触stable division中的文生图功能,也就是经由文本生成图像。这里面的文指的自然就是提示词prompt了。

广义的解释prompt是指用户输入的文本或图像信息,目的是指导模型根据一些特定的需求生成艺术作品。直白一点说,它是我们用来告诉a i我要画什么,画成什么样的一种语言。上节课里我们也提过了s d里进行绘制的两种基本方式,文生图和图生图文。生图就是主要以文字来实现这个沟通过程的,而图生图还可以依赖图片来传达信息。但图生图里也有提示词,而且同样重要。提示词包括的内容是非常广泛的,它可能包括作品主题、画风、形象特点以及一些具体包含的要素。以我绘制过的一张图片为例,它的提示词足足有十几行那么长。不同提示词分别向a l描绘了画面的风格、人物体貌、服饰特点、场景内容和一些额外的修饰性元素。别看这么多字,其实很多关于风格和画质把控的提示词是固定的。在这期视频的结尾,我也会向你分享一个我书写提示词的基本模板,你可以参考套用。

虽然说提示词并非越多越好,但很多时候写多点比少写点出来的效果肯定要更好,且在特定的需求上控制会更为精确。所以要想让a i按照我们的需要去阐述提示词到底应该怎么写呢?放轻松。其实写提示词的过程是非常自由的,无论你写什么a i都可以给你画。在stable division中可以输入提示词的区域就是左上方这两个文本框了。之前也提到了,它被分为了上下两部分,上面是正向的提示词,下面是反向的提示词。虽然自由,但提示词有些基本的语法规则是你应该掌握的。首先,提示词需要英文书写,所以如果你英语水平足够好,可以直接用英语组织你的描述语言。如果不太行,就跟上节课里说的一样,求助翻译软件吧。其次提示词是以词组作为单位呢,它不需要像真的英语句子一样有完整的语法结构组从句之类的东西。就像如果你要跟ai说画一个又长又宽的面和一个又大又圆的碗,那可以直接把它分解成面长宽和碗大圆。

这样ai也能听懂,甚至有时候听得比前一种更懂。词组与词组之间需要插入分隔符,基本的分隔符形式是一个英文里面的半角逗号。在输提示词的时候,最好把输入法切换到英文,英文里面涉及的符号基本都是英文的。提示词可以换行,但每一行的航母最好也打上分隔符。你可以输入一些东西,直接点击,生成出来的图片是这样的,它有可能很符合你的需要,也有可能变得奇奇怪怪。ai绘画是具有一定的随机性的,点多几次生成,每次生成出来的东西都会不太一样。之前也有人把ai绘画比喻为抽卡,想要出好的图片,得靠运气来抽。一个女孩在林中漫步,这其实只是一个非常概括的描述。这个女孩长什么样子?森林里有什么东西?时间是早上还是晚上?天气如何?这些东西ai都不知道。你的提示词太过于笼统,那她就只能瞎蒙抽卡了。

哎,别担心,提示词很多时候不是一下子就写好的,而是先有一个初心,再慢慢细化补充和微调的。上节课里我们在后面加入的提示词,更多的就是在一些具体的方面对这个画面去做控制。要加些什么呢?其实是有很多不同的分类,这里我把它简单的概括成了如下几大类,方便你对号入座找到逻辑。首先是基于人物或者主体特征的。例如,女孩穿的是衬衫还是长裙?头发的颜色和长度。以及脸上的表情,肢体的动作。具体一点,越具体,ai的思路也越清晰。你可以加入一些形容词,例如beautiful、happy等,它们虽然比较抽象,但也能在一定程度上让画面往你想要的感觉倾斜。其次是关于场景特点的,比如森林里有树木,但可以加入一些白色的花,或者是一条小路。还有一个要点,如果你描述的是户外场景,最好加入outdoor的提示词。

反之室内是indoor,它会很显著的影响整个画面的氛围。关于环境的描述也可以算作场景的一部分。比如画面的发生时间是在白天,有阳光。天空多云,这些都可以写进去。这些东西其实都很好理解,而他们也算是具象化的。我们在画面里能看到的东西,我把它们又归结成了一个大类,就是内容性的提示词。然而如果只有内容性的提示词,你画出的东西有很大概率是不会让你满意的。像这些作品你会觉得它很模糊,细节也不清晰。这里我们就需要引入其他的提示词来给这个画面打一剂强心针。首先是画质,因为a i学习的图片里面有些是高清的,有些质量比较模糊。

我们就可以用这样的提示词,让他盯着那些高清的去看,从而让你的作品也产出类似的画面特征。常用的提示词包括best quality ultra detail的master peace high rest八k等等,也有一些比较具体的,例如什么extremely z c g n market,water paper, unreal engine. rendered他们指向某一种特定形式的艺术作品,而他们往往都具有更为细节化、真实化的特征。其次是画风,也就是作品的艺术风格,它也是多种多样的。如果你想要画的是一幅比较偏插画风的画作。那常用的画风提示词包括paintings、illustration、drawing等。想偏二次元一点可以考虑加入anim、comic game、c g等关键词。想要偏真实系的画风,其实也有对应的风格关键词,例如photo realistic realistic等等。但真实性的创作更依赖基于真实照片训练的模型,这一点在完成了后续的学习之后,你会有更深刻的体会。我把这些提示词统称为标准化的提示词,因为它们能让画面更趋近于某一个固定的标准。加了这些标准化的提示词,画面的质感和细节是不是一下就丰满起来了呢?分析到这里该怎么写,提示词的初步框架就清晰了。

一个ai能读懂的好咒语,应该是内容充实丰富且画面具有清晰标准的。这里我也提供一个基本的模板框架,你可以按照这个方式对号入座的修改里面每一段的内容,从而让你的画作变得更符合需要。内容型的提示词多数时候是因你想创作的内容而已的,每次都要改成不同的东西。如果你只是需要微调,那提示词词组化的一个好处就会体现出来。当你想要修改某些具体的细节时,不需要重新来组织语言,而是直接找到对应的词组,更改成不同内容画面内容就针对这一项产生变化。但标准化的提示词组是相对固定可以抄作业的。所以只要你想画的是比较二次元的高质量插画,你可以每次都把上节课我教给你的这段咒语原封不动的复制进去。但在这段咒语里你可能会看到很多像这样的括号和数字,它们又是做什么的呢?其实这些内容是用来增强或者是减弱某些提示词的优先级和权重的。以我们刚刚绘制的这个画面为例,虽然我们输入了white flower白色的花。但画面上并没有出现白花,这里面的原因就在于你输入很多不同元素给a i都要它画,但它在处理的时候不一定get到你最想要的是什么,所以可能优先去画了树和森林。

如果你就是特别特别想要白花,那就可以用类似的方式把白花的权重和优先级增强。去增强的基本方式有两种,第一种是加括号,在提示成两侧加上这种圆括号,注意还是英文半角的,它的权重就会变成原来的一点一倍,相对于其他元素就会更突出。你还可以套多层括号,每套一层就再乘以一点一倍,三层就是一点三三一倍。看在我们加了三层括号以后,花就出来了。另一种方式是括号加数字权重,加了一层括号以后,你可以直接在后面加一个英文引号,让哪一个数字数字可以直接定义它的权重。比如一点五就是原来的一点五倍。看白花变得更突出了。所以当你觉得这个画面里有你告诉了a i但他又没有画出来的东西时,就可以借助这些方法来强调。加数字的方式明显更准确,而加括号在进行微调的时候就更方便,比起圆括号还有这种大括号代表一点零五倍调节的效果要更细微一点。而如果你想削弱某一个提示词的影响,就可以赋予它一个小于一的权重数值,或者用方括号会把权重削成原来的零点九倍。

调节权重的时候也要注意一件事情,就是尽量避免个别词条的权重太高。我体验里的安全范围在一上下的零点五左右。当你赋予个别词条一个二左右甚至更高的数值时,它就容易扭曲画面的内容。这个时候我们一般需要改换思路,通过更多同类型的字条来协同增强它的效应。还有很多更为深入的语法规则,例如磁条的混合、迭代、迁移等。如果你想学,就在弹幕敲一个二,我会准备一些额外的教程再和你讨论。提示词的另外一个重要构成部分是负面提示词。通俗点说,你希望这个话里出现什么就往正向提示词里丢,而不希望它出现什么就往反向提示词里面丢。反向的提示词是可以没有的,但一般我们也会选择加入一些通用的项目,主要也是基于标准化的考虑。比如上节课的魔咒,low quality、low rest, 这些的目的是杜绝低质量的学习样本。

monochrome m和gray scale的意思是单色灰度的,目的是为了保持画面的色彩鲜艳。ad proportion代表畸形的身体比例,ugly不解释,你也知道了后面这些missing hands、extra finger之类的有点玄乎,之前不是一直说ai不会画手和四肢嘛,画的时候偶尔会多只手多跳腿少根手指之类的,这些提示词也就是为了避免类似的情况发生。虽然实际用起来,ai有时候还是左耳进右耳出的反向提示词,通常情况下也是可以抄作业的,但如果你想要一些特殊一点的风格,偶尔也可以反其道而行之。比如把moto rome搬到正向提示词里,再给一个相当的权重,就可以画出单色风格的画作来。如果说提示词是咒语,那下面的一系列出图参数就像是魔法师的魔杖和魔导书一样,控制了这个咒语的具体释放形式。看到这一大堆参数是不是头都有点大了别担心,我们从本质出发来快速梳理一遍。首先是采样的步数,我们之前说过了,a i生成图像会经过一个加噪再去造的过程,而去噪就是在用像素一点点的模拟你最终要生成的这个图像。每模拟一次,画面就会变得更清晰一点。之前我有向你展示过的这种一步步生成的过程,其实画面没闪一下就代表它迭代了一步。理论上采样步数越多肯定最终效果越清晰,但实际上当步数大于二十步以后,后面的提升不大,就像八十分再到九十一百分一样。

而增加步数肯定意味着更长的计算时间,所以默认的采样步数一般都是二十。你算力充足且想追求更高的细致度,就设置为三十到四十,最低不要低于十,不然你可能会被自己产出的作品吓到。采样方法其实可以简单解释成a i进行图像生成的时候使用的某种特定算法。web u i提供的算法选项非常多,足足十几个,但其中我们常用到的估计也就四到五个。这其中e u来的两个适合插画风格出图比较朴素。d p m二m和二m carus速度较快,s d m carus细节会较为丰富。这些评价并不一定绝对准确,也因提示词和模型的不同有所差异。但实际使用的时候,我推荐你用最下面几个带有加号的。他们是改进过来的,算法无论如何应该都比上面的更稳定。另外大部分模型也有推荐使用某一种特定的算法,这可能是模型制作者自己测试过的。

比如深渊局的作者最推荐使用的就是s d e cars,这个时候照做就好,下面的宽和高它代表的就是你最终出图时候的分辨率。分辨率的设置存在一些隐性限制,默认的分辨率是五百一十二乘五百一十二,但这个分辨率下的图片哪怕细节再丰富,看起来可能都是很模糊的。设备允许的情况下,我们一般会把它提到一千左右。相同的提示词用更高的分辨率跑出来,质感是不是就完全不一样了呢?但是分辨率设置的太高也是会有问题的。一是你的显卡显存扛不住,我的三零七零就只能跑到一千五百像素左右的宽和高。其二则是分辨率太大了,很容易出现多人多手多脚的情况。这个问题我有特意研究过,它的原因是a i在进行模型训练的时候,用的图片分辨率一般都比较小。如果你的分辨率设置太大,它就会认为你是多张图片拼接而成的。那出现多的人就不奇怪了。要避免这样的问题出现,一般我们会采用低分辨率先绘制,再靠这个高清修复来放大。

它本质上是进行了一次额外的图生图,我们会在第五课里面详细讲解,你也需要通过反复试验,了解在你当前的设备条件下,什么分辨率是既能保证质量又能兼顾效率的。旁边的这两个选项,面部修复一般都会勾选上,它会采用一些对抗算法识别人物的面部并进行修复。和我们用的美图app里面智能匹配的功能差不多。平铺是用来生成那种可以无缝贴满整个屏幕的纹理性图片的。如果你没有需要千万别勾,也是一个会让你画面变得很奇怪的东西。提示词的相关性好理解,它的数值越高,a i忠实的反应提示词的程度就越高。但和权重一样,我们一般不会浮动太多,七到十二之间是比较安全的,数值太高容易变形。随机种子也是一个可以用来控制画面内容一致性的重要参数,但我打算放在下节课里再和你慢慢讨论。生成的批次和数量是这节课的重点之一。因为ai绘画的不确定性,即便是同一组提示词,你也需要反复试验,期待它在某一瞬间给到你一个完美符合你需要的画面,这个实验过程有时候会很漫长,可能会经过几十次、上百次。

如果你想让a i一直不断的按照同一组提示词和参数去出图,那就把批次数调高,绘制的过程会不断重复进行。结束了以后它会生成两样东西,除了每个批次出的图,还会有一张像这样拼在一起的格子预览图,方便你进行对比。所以你完全可以让他一口气来上个十次、二十次甚至几百次。你自己去吃个饭,睡一觉,让显卡在这里打黑工。之前我就用这个功能控制a i去批量重绘了我的头像,然后在几十张里面挑了一张自己喜欢的,再细化下面的每个批次数量。我一般不建议你挑增大,它可以让你每批次绘制的图像数量增多,理论上效率会更高。但它同一批绘制的方法是把它们拼在一起,看作一张更大的图片一次去画的。所以如果你的设备不好,非常容易爆显存。不如单批话少一点,再用更多的次数去解决问题。了解了这些参数的具体含义以后,你应该就更清楚的知道自己想要去做什么样的图片了。

讨论了这么多关于提示词和参数的知识,你现在会写提示词了吗?会了的请敲一,不会的请把圆周率的前十位数打在公屏上。不用猜,我也知道你打的是什么了。因为就我自己摸索经验来看,单纯掌握这些理论上的方法,其实很难一下子就摸到提示词的窍门。所以我还为你准备了几个非常适合新手的在写提示词方面取巧的方法,一定要记牢了。我总结出来的方法一共有三条,用起来都非常简单。第一条翻译大法。其实无论这些提示词再怎么复杂,他们说的还都是人话。因此当你不知道该如何表达的时候,就用自然的语言去把你想要画的东西一件件的说出来就好了。还是那句话,s d不认中文,所以你得先用翻译平台把它转成英文。你可以像上节课一样,先描述一个确切的场景,然后再按照我们刚刚的逻辑,想到什么就把新的词组翻译成英文,再加到后面去。

虽然这些词语表述有时候不觉得准确,但它至少是在帮你接近那个你想要的画面。而有一些功能插件也会帮助你把不准确的意向校正成a i的词典。里面有的东西我觉得也蛮实用的。目前也有一些国内开发者做出了可以用于翻译提示词的插件,我也挺感兴趣的。探索完了以后,也会第一时间做成教程分享给大家。第二条,借助工具ai绘画也流行了一段时间了,能意识到提示词难写的人肯定也不止你我而已,因此有些人专门开发了一些可以帮助你更好的去书写提示词的工具。在这里我推荐两个可以用于辅助书写提示字的网站。它们的用法都很简单,你可以像选参数一样勾选那些你需要的。它会帮助你自动按照刚刚我们说的那些语法规则整理到一起,然后你再复制粘贴到自己的s d里面就可以了。使用这些工具像是在经历一个更方便的翻译的过程,但要注意思路,不要被它已有的一些词汇限制住了。

如果有其他你想要加进去的东西,也可以尝试自己撰写添加。第三条,抄作业。是的,在ai绘画领域里,抄作业并不是什么不光彩的事情,在一些模型网站和绘画分享网站上,有很多创作者还会主动分享自己作图使用的咒语和模型,帮助大家获得类似的出图效果。同样推荐两个可以用来搜索记录提示词的网站。一个是open arts点a i里面有很多基于s d官方模型和欧美主流的模型生成的作品。另一个网站记录的二次元作品和亚洲审美的内容会多一些。像这些作业帮网站的时候,也记得按照我们刚刚说的那个大概的逻辑框架,对里面的提示词进行仔细的筛选。例如这幅作品,如果你喜欢他的人物表现形式和背景元素等等。那主要就抄内容性的部分。如果只是喜欢这种画风,或者是希望有类似质感,就超标准化的部分。

这三条办法一一梳理下来,现在再做一个选择。你是不是觉得写提示词也没那么难了呢?好了,以上就是本节课的所有内容了,在今天的这期教程里,我们简单探讨了文章图功能以及其中的提示词抒写逻辑。了解了提示词的基本逻辑、语法规则、权重调整和负面提示词的作用。梳理了s d的初步参数设置里面的各项含义,并整理了三条对于新手非常有帮助的书写提示词的辅助方法。完成这节课以后,你就是一位会念咒能指挥a i的出色魔法师了。在下一节课里我们会继续探索stable fusion图生图部分的内容,了解一键开启a i世界的奥秘,在二次元和三次元世界间自由穿梭的关键。刚才讲了这么多,也基本没喝过一口水的份上,大家就给一个三连支持鼓励一下吧。还能让我以更充足的动力来完剩下的视频,从而带给大家更多听得懂也学得会的使用教程。感谢你看到这里,这里是南磊,我们下期再见面,拜拜。