首页
CtrlK

11-速览图像生成模型

11-速览图像生成模型

速览图像生成模型

需要脑补

与生成文字不同,生成图片的可能性要更多,语音合成也是同理(男女老少情绪等)。“一张图胜过千言万语”,要通过几句话来生成一张图,机器需要大量脑补。

各个击破

文字生成多採取 Autoregressive (各個擊破) 影像也可以採取 Autoregressive (各個擊破) 影像版 GPT https://openai.com/blog/image-gpt/ 但这种方式生成图片太慢了。

一次到位

一次到位的话,每一个像素独立分裂,凑起来不成样。 比如画`一只狗`,没有标准的答案,可以画白狗、黑狗,可以画白天、晚上、城市、草原等等。

增加输入

现在图像模型,都不是只有拿文字去生成图像 ,都需要一个额外的输入,从一个简单的几率分布sample出来一个像是杂讯的东西

用 $y$ 表示 文字,$x$ 表示影像,那 $P(xy)$ 非常的复杂。因此,把 Normal Distribution 里面 sample 出来的 vector 都对应到 $P(xy)$ 里的每一个 $x$

这部分没看懂

速览 图像生成模型
  1. Variational Auto-encoder (VAE)

  2. Flow-based Generative Model

  3. Diffusion Model

  4. Generative Adversarial Network (GAN)

11-速览图像生成模型
Mleon的头像
创建于:2024-02-23
随记
讨论
媒体