查看原文
其他

AI绘画黑话详解

Glen Glen 2023-10-10

AI绘画爆火已经一段时间了,相信大家都有所耳闻,但是一些AI绘画业内的黑话,很多人都不是很了解,今天给大家梳理一下。

何谓Naifu、WebUI?

去年Stable Diffusion开源的AI绘画模型爆火,此后一家叫做NovelAI的公司,基于Stable Diffusion的模型,训练了二次元风格的AI模型,后续模型也开源了,坊间大佬以此模型制作了前端交互界面Naifu。

Naifu的优点是简单易懂参数少,很容易就可以生成质量比较高的图片,但它也有缺点,就是功能比较少,比较难以制作水平更高的图片。

WebUI通常是指由AUTOMATIC1111创作的基于Stable diffusion AI模型的AI绘画前端交互界面,它的优点是参数多,可调整出来的图片效果好,支持训练模型,并且一直有更新,支持越来越多的插件;缺点是参数多、操作复杂,不适合新手。


都有哪些常见模型呢?

平时大家可能会经常接触到各种各样的模型,ckpt、LoRA等,完全听不懂是啥意思,这里我来解释一下。

完整大模型:指标准的latent-diffusion模型,拥有完整的TextEncoder、U-Net、VAE等。这种模型需要很高的显卡算力才可以玩转。大家常见的*.safetensors格式或者*.ckpt格式的模型文件,就是完整模型的常见格式,通常文件大小在几个G级别。

小模型:小模型指从大型模型中截取特定的部分,虽然其能力不如大型模型完整,但是由于训练方向的明确性,小型模型在生成特定内容时表现更佳,也更加精准。常见的小模型有Embedding、Hypernetwork、VAE、LoRA等,下面简单介绍一下。

①Embedding:后缀一般为.pt、.png、.webp等格式,文件非常小,一般是KB级。风格模型是指专门针对一个特定风格或主题进行训练的模型,可以作为一个模块在生成图像时使用。用户可以在输入Prompt时使用对应的标签来调用相应的风格模型,从而生成符合该主题或风格的图像。例如,通过使用数百张樱木花道的图像进行训练,可以创建一个名为“yingmu”的Embedding模型。在使用AI绘图工具时,用户可以加载名为“yingmu”的Embedding模型,并在输入Prompt时添加“yingmu”的标签,以自动调用该模型生成符合该主题的图像。该模型一般放置在*\stable-diffusion-webui\embeddings目录内。

②VAE(Variational autoencoder):一般为.pt后缀格式,文件大小一般是几百MB。像滤镜一样的东西,可以影响生成图像的色彩和微小细节。虽然大型模型本身内置VAE,但并不是所有大型模型都适合使用VAE。最好使用指定的模型与VAE搭配,以避免产生反效果而降低生成图像的质量。该模型一般放置在*\stable-diffusion-webui\models\VAE目录内。

③Hypernetwork:一般为.pt后缀格式,文件大小一般在几十MB。比较强大的一种模型,支持自定义很多参数,可训练画风、人物等,但训练比较难。该模型一般放置在*\stable-diffusion-webui\models\hypernetworks目录内。

④LoRA:文件大小一般在几百MB,最出名的小模型,非常适合训练人物,效果好,配置要求低。在Stable Diffusion的文本生成或图像生成界面中,可以看到一个红色的图标“Show extra networks”位于生成按钮下方。点击该红色图标将会弹出一个面板,其中包含名为Lora的选项卡。在该选项卡中,用户可以自由选择Lora模型。点击所需的模型后,该模型的名称将自动插入到Prompt文本框中。

PS:部分图片来自互联网,侵权请联系我删除

推荐一款工作提效小程序:

喜欢的话,可以关注一下,请在右下角点一下“在看”~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存