CtrlK

11-速览图像生成模型

速览图像生成模型

需要脑补

与生成文字不同，生成图片的可能性要更多，语音合成也是同理（男女老少情绪等）。“一张图胜过千言万语”，要通过几句话来生成一张图，机器需要大量脑补。

各个击破

文字生成多採取 Autoregressive (各個擊破) 影像也可以採取 Autoregressive (各個擊破) 影像版 GPT https://openai.com/blog/image-gpt/ 但这种方式生成图片太慢了。

一次到位

一次到位的话，每一个像素独立分裂，凑起来不成样。比如画`一只狗`，没有标准的答案，可以画白狗、黑狗，可以画白天、晚上、城市、草原等等。

增加输入

现在图像模型，都不是只有拿文字去生成图像，都需要一个额外的输入，从一个简单的几率分布sample出来一个像是杂讯的东西

用 $y$ 表示文字，$x$ 表示影像，那 $P(x∣y)$ 非常的复杂。因此，把 Normal Distribution 里面 sample 出来的 vector 都对应到 $P(x∣y)$ 里的每一个 $x$

这部分没看懂

速览图像生成模型

11-速览图像生成模型

创建于：2024-02-23

随记

讨论

媒体