当前位置：首页 > 资讯 >

万字综述之生成对抗网络（GAN）(5)

2024-06-16 来源:飞速影视

上图 b 中，一些离决策面比较远的点，虽然被分类正确，但是这些并不是好的生成样本。传统 GAN 通常会将其忽略。而对于 LSGAN，由于采用最小二乘损失，计算决策面到样本点的距离，如图 c，可以把离决策面比较远的点“拉”回来，也就是把离真实数据比较远的点“拉”回来。
Integral probality metric (IPM)
IPM 定义了一个评价函数族 f ，用于度量任意两个分布之间的距离。在一个紧凑的空间
中，定义 P(x) 为在 x 上的概率测度。那么两个分布 Pdata，Pg 之间的 IPM 可以定义为如下公式：
类似于 f-divergence，不同函数 f 也可以定义出一系列不同的优化目标。典型的有 WGAN，Fisher GAN 等。下面简要介绍一下 WGAN。
WGAN
WGAN 提出了一种全新的距离度量方式——地球移动距离（EM, Earth-mover distance），也叫 Wasserstein 距离。关于 Wasserstein 距离的介绍可以参考：白话 Wassertein 距离[1]。
Wasserstein 距离具体定义如下：
(Pdata,Pg) 表示一组联合分布，这组联合分布里的任一分布 γ 的边缘分布均为 Pdata(x) 和 Pg(x)。
直观上来说，概率分布函数（PDF）可以理解为随机变量在每一点的质量，所以 W(Pdata,Pg) 则表示把概率分布 Pdata(x) 搬到 Pg(x) 需要的最小工作量。
WGAN 也可以用最优传输理论来解释，WGAN 的生成器等价于求解最优传输映射，判别器等价于计算 Wasserstein 距离，即最优传输总代价 [4]。关于 WGAN 的理论推导和解释比较复杂，不过代码实现非常简单。具体来说 [3]：
判别器最后一层去掉 sigmoid生成器和判别器的 loss 不取 log 每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数 c
上述第三点，在 WGAN 的后来一篇工作 WGAN-GP 中，将梯度截断替换为了梯度惩罚。
f-divergence和IPM对比
f-divergence 存在两个问题：其一是随着数据空间的维度
的增加，f-divergence 会非常难以计算。其二是两个分布的支撑集 [3] 通常是未对齐的，这将导致散度值趋近于无穷。

1 ...3 4 5 6 7 ...23 查看全文