首页
CtrlK

13-StableDiffusion

13-StableDiffusion

StableDiffusion

Framework

影像生成模型
  1. Text Encoder

    1. 输入:文字

    2. 输出:一个一个的向量

  2. Generation Model(现在一般用 Diffusion Model)

    1. 输入:杂讯和文字的encoder

    2. 输出:“中间产物”,图片的压缩版本,可以是人看得懂的但比较小且模糊的图片,也可以是人看不懂的

  3. Decoder

    1. 输入:上述的图片压缩版本

    2. 输出:图片

这个部分一般是分开训练,然后组合起来的。

常见模型

TextEncoder

Encoder

可以用 ChatGPT 或 Bert 作为 Text Encoder

影响很大

最开始的文字对最后生成图片影响很大。 相较之下,Diffusion Model 对结果的影响不是很大。

FID

Fréchet Inception Distance (FID) 如何衡量一张图片的好坏,如何评估文生图模型的好坏? ![image.png](https://cdn.modevol.com/user/ckxe4nrot01l501s5g2ehd6ge/images/ppp78o20sifb31kjqoimti6z.png)image.png

https://arxiv.org/abs/1706.08500

CLIP

Contrastive Language-Image Pre-Training

![image.png](https://cdn.modevol.com/user/ckxe4nrot01l501s5g2ehd6ge/images/htyxv9z7jhplfuxz4q5o6fbe.png)image.png

https://arxiv.org/abs/2103.00020

Decoder

无需成对资料

Decoder can be trained without labelled data.

没有跟影像成对的资料比有成对的资料更多。Decoder 的训练有一个优势,那就是不需要用成对的资料来训练。

训练decoder
  1. 「中間產物」為小圖

假如中间产物是小图,可以训练一个输入是小图,输出是大图的 Decoder。 这样,仅需要把原有的图片变成小图,就有训练资料了。

  1. 「中間產物」為「Latent Representation」

训练一个 Auto-encoder,输入是图片,输出是 Latent Representation,然后将该输出作为要训练的 decoder 的输入,期待其输出接近最开始输入的图片。 (可以把这个中间产物理解为人类看不懂的小图)

Generation Model

训练方法

不好描述,看课程

13-StableDiffusion
Mleon的头像
创建于:2024-02-23
随记
讨论
媒体