与生成文字不同,生成图片的可能性要更多,语音合成也是同理(男女老少情绪等)。“一张图胜过千言万语”,要通过几句话来生成一张图,机器需要大量脑补。
文字生成多採取 Autoregressive (各個擊破) 影像也可以採取 Autoregressive (各個擊破) 影像版 GPT https://openai.com/blog/image-gpt/ 但这种方式生成图片太慢了。
一次到位的话,每一个像素独立分裂,凑起来不成样。
比如画`一只狗`
,没有标准的答案,可以画白狗、黑狗,可以画白天、晚上、城市、草原等等。
现在图像模型,都不是只有拿文字去生成图像 ,都需要一个额外的输入,从一个简单的几率分布sample出来一个像是杂讯的东西
用 $y$ 表示 文字,$x$ 表示影像,那 $P(x∣y)$ 非常的复杂。因此,把 Normal Distribution 里面 sample 出来的 vector 都对应到 $P(x∣y)$ 里的每一个 $x$
这部分没看懂
Variational Auto-encoder (VAE)
Flow-based Generative Model
Diffusion Model
Generative Adversarial Network (GAN)