如何利用简单几张照片训练个人LoRA#AI写真#Stable Diffusion EasyPhoto扩展插件#AI绘画

前段时间相机靠一手a i写真成为了二零二三年国内第一个爆火出圈的a i g c产品。上传二十张左右的人像照片,交个九块九就能为自己制作一个数字分身,生成不同风格的写真照。证件照我试了一下,感觉还挺逼真的。你觉得这些照片像我本人吗?熟悉stp division的朋友们都知道,它用到的核心技术就是a i绘画里的laura训练制作数字分身,就是通过用户上传的这些照片训练出一个人物loa,用来记住你的样貌、五官、发型、体格,在生成时加入这个柔软模型,结合大模型与合适的计时词,就能生成非常像你的a i照片了。传统的lara训练界面参数复杂,给素材打标清晰需要花费不少时间精力,对配置也有不低的门槛要求。但在万能的security fusion里,有一个非常神奇的扩展插件,从底层逻辑上复刻了妙丫的这一套技术架构,只需要上传五到十张照片,不用打标,甚至连参数都不用设置,就可以训练出一个高质量的人物。loa并内置了一套完整的照片生成工作流。可以智能地将人脸融。回到你自己身上的作品里,甚至只用这个简单选项就可以自由定义人物场景、拍摄环境,实现a i写真自由。

你只需要一个叫做easy photo的使用扩展。我也为了这期视频和你详细介绍它的部署安装使用方法,真的蛮好用的。看完以后你会回来一键三连的。安装easy photo的方法很easy,将它的github仓库地址复制到web u i里的扩展标签里,从网址安装或者直接在扩展列表中搜索easy photo,点击安装就可以在你的stable version里使用它了。如果安装的过程中存在连接问题,你也可以从页面下载代码包,解压缩放到根目录下的extensions文件夹内。安装完成以后,整个重启web u i它会自动下载其他所需的依赖,全部同步了国内的下载源,非常顺利且快速,然后它就会出现在你的web u i标签栏里了。你无需自己配置一些其他的额外软件或环境,但需要在你的web u i里安装control net。因为它会用到control里的一系列控制模型来辅助生成照片,不会还有人没安装control net。如果还没有,请收看之前的c r r n e t基础入门教程,花上一点时间把它安装配置好,并在设置里将这个controller的最大单元数开到三以上,来支持多重control t发挥作用,使用easy photo去生成ai写真的方法。

也很easy。为了让你清晰体会easy photo是如何生成a i写真的我拿自己来做个实验,在他这里定制一套a i写真,把整个流程和基本操作方法讲清楚。easy boto里的工作主要分为两大板块,分别是训练和推理。首先打开train的标签,搜集一些写真主人的清晰人像照片,大约五到二十张。第一次尝试时,我就随便凑了八张各式各样的照片,由手机里的自拍他拍正装、形象照、直播视频截图等等。八张够用吗?看到后面你就知道了,点击上传照片,把它们全部选中,加入到上面的训练图库中。随后在右边设置各项和训练相关的参数,在你第一次尝试时,大部分参数可以维持默认不变。然后在上方选择一个用于训练的基底模型,它会自动读取你s d里的模型库。一般来说我们会用一些比较泛用的check point来作为训练laura的底模。

比如现在我使用的这个realistic vision完成以后,点击下方开始训练,它会跳出一个提示框,要求你输入一个user i d就是用户名,你可以理解为是这个写真主人的名字。说好了。击确定就可以启动训练了。初次开启训练可能也会花上十分钟左右的时间下载所需的模型和依赖。如果训练正常启动,你可以在下方的训练日志处观察训练的进度。同时你也可以打开运行web u i的命令行,里面也会实时反馈训练进程。如果训练出错,也会在这里面反馈一些错误信息,可以为你排查问题提供依据。训练结束后,插件页面上会跳出完成提示,我们就可以进入到下一个环节,就是利用这个模型做推理了。推理是机器学习领域的行话,本质上就是一个出图作画的过程。

最上方切换到第二个推理标签,最简单的方式是套模板的e c photo为你内置了一系列用于产出各类照片的模板图像有证件照、半身照、唯美写真等等一应俱全。选择一张你喜欢的模板,这里我们拿一张证件照的来尝试一下,在下面选定推理使用的模型和user i d,这里的模型就相当于你平时跑图用的模型。你可以根据你的喜好做选择,而user i d就是刚刚训练时我们输入的用户名。如果后续你训练了多个不同的数字分身,在这里也会有多个选项。刚训练完的i d需要点旁边按钮刷新一下才能在里面看见。点击开始生成,它就会制作写真了。根据你的设备情况,一般需要花费几十秒到几分钟,不等等一小会儿你就可以在右边验收这个新鲜出炉的ai证件照了。你觉得这张照片像我吗?像的扣一,不像的扣二。如果要我个人来进行评价,我觉得可能不太像。

因为这张模板照片的发型和脸型都不是我的stuff。但easy photo很贴心的提供了一个自主上传照片的功能。我们切换到右边这个上传图像,你可以投入一些你自己通过s d生成的图片,来让easy photo针对它进行重绘。比如这里我专门做了一张半身人像发型,脸型和身形好吧,不包括身材都更像我自己。这个时候再按照刚刚的流程选择模型和用户i d就可以实现更加自然的人脸融合了。比起刚才的照片,你觉得这张会更像我一点吗?同样像的敲一不像敲二,真的非常easy,对吧?但在这个easy的背后,其实是这个插件为你做了很多复杂的工作。easy photo的官方技术说明里提到,在训练阶段它会对输入的照片进行人脸检测,确定人脸位置后,按一定比例截取输入图像,然后使用显著性检测模型和皮肤美化模型来把它们加工成一组只包括人脸的干净人脸训练图像。说直白点就是智能的进行了一个抠图美颜的动作,然后再拿这些图像按照预设参数标签来进行训练。而在推理生成这一步上,同样也有很多背着你在做的小动作。

还会先对我们选定的模板图或者上传的图片,这张图我们后面把它叫做用来生成的底图,去进行人脸检测,生成一个用于重绘面部的遮罩。然后在这个遮罩的范围内,将模板图像和初始照片进行两次人脸融合和内部重绘。在这个过程中,control net里的open post kenny的模型会作用在人物的五官上来确保图像的相似性和稳定性。最后针对生成完的图像,它还会再做一次基于stable s二的二次放大,从而实现高清化的图片输出。解释一遍下来,你对这个插件的工作逻辑理解是不是更加深刻了呢?它把很多传统炼丹流程里的操作步骤,通过非常智能化的手段实现了,从而确保了一个简单但却高质量的loa训练。而用它阐述图片的过程也融合了多种不同技术,形成了一个完整的工作流,也节约了你在各种不同的过程插件之间反复横跳的功夫。从技术角度来看,它让在s d里产出人像图片训练loa变得更easy了。而在使用意义上,它也确实是让拍写真这件事儿变得更加easy了。然而要想把这个插件给真的用好,其实也并不容易。

在一开始摸索这个插件的时候,我也不是特别顺利,按照预设的方法进行训练和推理。有些时候生成出来的照片并不是那么像本人,而且在面部的融合上也有一些小问题。就不能说是差强人意,只能说是连我妈都不太辨认得出来。那要如何更好的去使用easy photo呢?在仔细研究了它的作用原理以后,我总结出了一系列针对训练和推理过程进行改进的手段。先来聊聊针对训练的优化。右边这一系列我们刚刚维持默认的选项,其实就是laura训练过程里会去调整的各种参数,包括样本分辨率、迭代保存次数、训练的步数、批次大小、学习率等等。我其实并没有打算和你真的去分析里面的每一个参数作用,因为这不符合让流程更加easy的本意。而根据作者的测试,多数情况下维持默认参数就可以实现不错的训练效果。但根据劳尔训练的一般性规律,有几个参数是你可以尝试着去做微调的。

比如你可以适当调高这里面的训练步数,这里的每一步代表a i完成了对训练集中的一张图片的一次学习。e c photo里有两个用来定义步数的方式,分别是最大训练步数和单张图片最大训练步数。e c photo会在训练达到这两者间的最小值时停止训练。以我们刚刚进行的这一次训练为例,默认的情况下一张照片最大训练两百次。我们上传了八张图,所以理论上总共会训练一千六百次。但因为我们额外设置了最大训练八百次,所以练到八百次的时候就会停止。对于一般的老人而言,八百步是一个比较基础的训练水平,提高到一千二百到一千五百步左右,有一定概率取得了更好的效果。所以你可以通过调节这两个参数,让他练多几步再停止。同时训练的时长会随着步数增长被延长。

此时如果你的显存水平在十六g以上,可以考虑将批次大小增大到二到四之间,在同一批次里进行更多图像的训练,并让时间缩短到原来的二分之一到四分之一。他们之间的关系我讲明白了吗?如果你想更全面的了解easy photo里的每一个参数影响的因素,在这里我也为你附上一张参数含义的表格。这些和罗尔训练相关的参数还是挺有趣的。如果你期待一些关于他们的更为深入的讲解,可以在弹幕里敲个六下单预定一下。而比起参数,我认为更重要的是你输入给easy photo的照片,也就是我们常说的训练样本。首先,数量多少并不绝对影响训练成果。在一开始上传照片时,并不是说你塞三四十张进去,效果就一定会比十张要更好,相反,过多的样本有时候还会干扰ai的学习,让loa难以稳定发挥,相比之下,样本质量才是最重要的,什么样的照片才是好的样本呢?第一,人的脸在画面中的占比应该尽可能大,至少是半身照。自拍照尽量不要挑这种人很小的游客照,也不要挑这种脸不完整的自拍照。第二,多张照片里最好包括不同角度表情的人像,如果人物戴眼镜,那不戴眼镜的也要有其他一些基本的要求。

比如照片要清晰,光线要良好就不说了。对了,尽量不要p图,那些p s美颜的痕迹会让a i拿捏不准你真实的模样,很容易让训练的结果不像。其实你也不要有太大的压力,如果是给自己定制一套easy photo,你完全可以像我一样现场拍摄,找个不至于太乱的背景,人占画面的比例适中,转半圈抬头,第一头不同的角度都拍到。经过我的实际测试,这一套照片训练出来的效果比我之前所有搜集照片练出来的效果,在还原度和细节上都要更好。选择底膜其实也有一定的讲究,为了保证laura的泛用性,我比较推荐你使用一些泛化能力强且人像风格多元化的底膜。比如s d的历代观模或者realistic vision,这样练出来的模型在任何一个大模型上去推理都会比较和谐融洽。如果你常常使用某一个微调模型生成特定风格的图片,也可以用它训练,但可能会造成比较脸谱化的偏差。比如这是我们擅长亚洲女性人像的magic realistic练的一个我的lara。就是会有那么一股。

我不说了,你们把评价发在弹幕上吧。在推理方面也有很多我们可以去操作的空间。除了选模型、选人物以外,下面还有一系列你可以展开的高级选项。在这个提示词框里你可以额外输入一系列用于面部重绘的提示词,这个是影响效果的关键之一。默认情况下,它准备的提示词是mar peace beauty,但其实你可以写更多,比如一些通用的用于优化人像近照的提示词模板。另外,如果你的写真主人是男生,beauty容易让人带有女性化的气质,这个时候可以把它换成one boy one man,handsome male focus之类的提示词,你还可以加入一些五官神态特征,它在一定程度上可以更好的帮助你还原你想要的人物特质。但你不用一开始就是特别多,先使用简单的提示词做尝试,在效果不好的情况下,再把提示词作为一种调整手段。下面同样有一系列可以调控的高级参数,和推理参数一样,我不会建议你一个个的去琢磨,因为这也不符合那种easy的感觉。最下方的一系列复选框控制了一些核心功能的开关。

一般我都会建议你全部勾选。如果你对图像分辨率的要求不高,取消勾选最后一个超分的选项可以节约掉。最后使用stable s r放大的这部分时间。上方的滑块控制的是在刚才我们提到的那个两次融合的绘制过程中面部的融合方式。你可以通过这些参数调节控制a i生成的人像细节,不过它们的影响是非常细微的,比如这个用于控制写真是否相像的人脸融合比例在最大值与最小值上的差异其实并不大。所以只有当效果不尽人意的时候,我才建议你到这里面找一些解决方案。最下面的两个附加功能其实非常有意思。这个展示面部相似度得分会在生成后附上一张样本来源。你可以很清晰的看到它是学习了你上传的哪一张图片,也揭示了推理过程中进行面部匹配的这一流程,对你挑选训练样本也会有一定的启示意义。

旁边的背景还原则控制了是否会对背景进行重绘,你可以试着将它开启并拉大背景重绘幅度,然后在上方额外提示字中加入针对背景的描述,看你就会在人脸重绘的同时自然的实现背景切换了,再生成一张a i写真的过程中我们输入的底图也是相当重要的。一些photo提供的底图模板其实覆盖的还蛮全面的,但多数时候你肯定还是更想用自己跑出来的图上传制作写真。关于生成高质量人像照片的方法,在之前的教程里我们已经分享了很多了。所以在这里我就补充几组针对不同写真风格的标准化提示词。你可以在这些视频的简介资料里下载到对应的原图,与提示词组合并,一键应用到web u i里。而如果你想像模板图里一样生成一些特定形式的照片,那融入一些风格。会有不错的帮助,比如证件照、胶片风、拍立得的loa,感兴趣可以在出图这一步充分尝试一下。这里面还有一个小关键,就是我们一开始提到的,一定要通过提示词等手段的控制,预先生成发型脸型和本人相像的图片。因为e z foto目前阶段的融合是仅限于五官范围的,而我们去看一个写真作品,像不像发型、脸型甚至身形都会是重要的考量因素。

所以做好这一点会有助于建立起对个人形象的识别。而为了帮助你更好的做到这一点,我同样汇总了一系列用于描述这些外貌特征的提示词。你可以截个图保存一下,需要时拿出来参考的。接下来上述的每一个环节都可能会对训练和推理的最终效果构成影响。而每个人对于写真的要求也是不一样的,所以我无法为你总结出一个绝对正确的方法,但会希望以上的讲解能帮你把里面的规律讲明白,从而可以根据自己的需求不断的改进。在做裸眼训练生成图片的时候,大家也一般都是在反复的尝试中逼近正确答案。好在ez photo的训练持续时间并不长。官方测试按照默认的八百步进行训练,大概需要二十五分钟来训练好一个用户loa。而在我的电脑上大概八分钟左右就能出一炉。

如果你体验过了e z photo,你可以把你的设备型号和训练所需的时长发在弹幕和评论里给更多后面的朋友提供参考。我自己在本地训练laura的时候也碰到过不少问题,比如训练的显存占用高,负担大。如果设备比较一般,训练期间除了看着进度条慢慢爬,基本什么都做不了,而模型训练耗时往往也比较长,在正式的laura训练中,学习步数更多、要求更高的情况下,可能要三四个小时甚至一整晚才能烧出一炉。虽然说老a训练的门槛低,但如果你的显存太低,可能连启动都启动不了。如果你在本地使用ez photo训练推理时碰到了类似的障碍,也可以考虑求助一些云平台的帮助。目前e z foto的开发者官方提供了三种不同的在线部署应用的方式。分别是阿里云的派d s w auto d l docker。你可以参考项目主页里的指引进行镜像部署。这三种途径里着重聊聊我用过的派d s w的体验。

作为国内领先的云计算平台,阿里云为广大用户提供了充足的可免费白嫖的计算资源,支持超过三百个小时的计算训练,帮助你克服算力门槛。这些试用资源是每天限额发放的,如果你需要,可以点击视频下面的链接,快速跳转到试用中心进行领用。领取完了以后,就可以通过它租用g p u实例进行训练推理了。我在上一期老照片修复的视频里有详细讲解,利用派交互式建模进行部署开通服务的方式。记得去看一看。通过它内置的d s w gallery,你可以从其他人为你编写好的notebook一键部署完整的应用和环境,零基础小白也可以低代码运行复杂的a i应用,免去了本地来回折腾的麻烦。如果你想借助它在线开启e z photo的试用,可以在d s w gallery中搜索easy photo。将这个notebook在实例中打开,就可以一键配置包含e y foto的插件和完整环境的s d y b y了。它的资源使用弹性灵活,不用时会自动预警停机,避免产生额外的扣费。

除了e z photo这种简易的loa训练以外,d s w还支持完整部署web u i以及loa训练。u i无论是像云端炼单还是在线速度作画,都可以通过它轻松实现部署。目前easy photo的各项功能还在非常快速的迭代更新。上周他就加入了一个图像批处理的功能,切换到推理界面的这个批量上传标签,你可以一次性选中多张照片上传,按上面的方式设置好参数模型,就可以让他批量产出同一个主人的一系列照片,只需要不到十分钟的时间,就拍好了这样一套高质量的ai写真集。真的非常方便了。同时它还支持了多人写真的面部融合,导入有多张人脸的照片后,在下方定义面部数量,再给每个人脸选择对应的主人,就可以做出像这样的多人合照了。很多s d用的不多的朋友,可能在做底图这一步上就会碰到困难。但也不用担心,本着让照片变得越来越easy的思路,它在这个月还加入了一个新的功能,就是基于s d excel实现的底图快捷生成。这个功能彻底打通了从生成到产出的整个完整流程。

利用它生成照片前,你需要先下载一个大约七g左右的s d excel微调模型来支持生成。相比起我们速度常用的一点五二点一版本的老模型,s d x l在图像生成的精细度、真实感、提示词忠实度和准确性上都有显著的提高,因而非常适合用来生成照片。切换到最右边这个s d excel beta的功能标签以后,在这下面会有一系列可选项,可以直接以非常可控可选择的方式帮助你定义人物性别、姿势、穿着、场景,甚至是季节时间。只需要像这样简单选好几个选项,再像刚刚一样加载模型,用户i d你就可以得到一幅。等一下我选的明明是男的。提个醒啊,如果大家是用来生成男生人像的话,除了更改这个gender以外,还要把右边的close尽量改成男性风格的,不然很容易出现像这样的尴尬场面。这下对了,在这个流程中,你可以认为是我们使用excel模型生成的这张底图,再利用刚刚的这一整套流程实现了面部融合替换。所以底膜还是可以按照你的喜好去选择。但注意作者的建议是拥有十六g以上的显存才去运行,这个功能好像确实比较苛刻,但这个是你利用s d excel的强大性能必须承担的压力。

如果你打算在刚刚提到的各种云服务平台上运行e z photo,一定要选择大显存的gpu比如阿里云的派平台上可以免费试用的a一专业计算卡,二十四g的显存可以支持你愉快体验这个功能。即便显存不达标,使用前面这些基本功能也是可以自由玩转e z photo的。这个扩展插件的使用其实不仅仅限于去生成这种真实的写真照片。例如使用偏二点五d风格的模型生成具有c g质感的图片。在人脸融合这一步,也选择对应风格的模型,就可以创作出更具有想象力的画面。再和其他的方程里的工作手段整合到一起。你可以。最大程度发挥他的潜力。比如在上传蒙版之前,你可以利用open post editor自由定义人物的姿势动作。

而在输出图片以后,还可以通过till diffusion的扩展再进行高清消分,实现真正的摄影机大片产出。我也和开发这个扩展的大佬们做了一些深度交流,他们有不少正在逐步实现的想法,比如对多人照片的处理支持,或者是利用它进行更加多样的laura训练。大家在使用的过程中有任何问题和建议,或者是期待他们去更新的功能,都可以在评论区里给他们提要求。这里我也放一个官方主页的交流群入口,对这个扩展应用感兴趣的朋友可以加入进来交流讨论。觉得我这期视频讲的还算明白,就也请给上一个一键三连支持一下啦。这里是南理,感谢你看到最后,我们下期视频内容再见啦,拜拜。