当前位置：首页 > 资讯 >

万字综述之生成对抗网络（GAN）(7)

2024-06-16 来源:飞速影视

显然，不论是对于 pixelCNN 还是 pixelRNN，由于其像素值是一个个生成的，速度会很慢。语音领域大火的 WaveNet 就是一个典型的自回归模型。
VAE
PixelCNN/RNN 定义了一个易于处理的密度函数，我们可以直接优化训练数据的似然；对于变分自编码器我们将定义一个不易处理的密度函数，通过附加的隐变量 z 对密度函数进行建模。VAE 原理图如下 [6]：

在 VAE 中，真实样本X通过神经网络计算出均值方差（假设隐变量服从正态分布），然后通过采样得到采样变量 Z 并进行重构。VAE 和 GAN 均是学习了隐变量 z 到真实数据分布的映射。但是和 GAN 不同的是：
1. GAN 的思路比较粗暴，使用一个判别器去度量分布转换模块（即生成器）生成分布与真实数据分布的距离。
2. VAE 则没有那么直观，VAE 通过约束隐变量 z 服从标准正态分布以及重构数据实现了分布转换映射 X=G(z)。
生成式模型对比
1. 自回归模型通过对概率分布显式建模来生成数据；
2. VAE 和 GAN 均是：假设隐变量 z 服从某种分布，并学习一个映射 X=G(z) ，实现隐变量分布 z 与真实数据分布 Pdata(x) 的转换；
3. GAN 使用判别器去度量映射 X=G(z) 的优劣，而 VAE 通过隐变量 z 与标准正态分布的 KL 散度和重构误差去度量。
GAN常见的模型结构
DCGAN
DCGAN 提出使用 CNN 结构来稳定 GAN 的训练，并使用了以下一些 trick：
Batch Normalization 使用 Transpose convlution 进行上采样使用 Leaky ReLu 作为激活函数

1 ...5 6 7 8 9 ...23 查看全文