当前位置：首页 > 资讯 >

万字综述之生成对抗网络（GAN）(16)

2024-06-16 来源:飞速影视

音乐生成
RNN-GAN 使用 LSTM 作为生成器和判别器，直接生成整个音频序列。然而，正如上面提到的，音乐当做包括歌词和音符，对于这种离散数据生成问题直接使用 GAN 存在很多问题，特别是生成的数据缺乏局部一致性。
相比之下，SeqGAN 把生成器的输出作为一个智能体（agent）的策略，而判别器的输出作为奖励（reward），使用策略梯度下降来训练模型。ORGAN 则在 SeqGAN 的基础上，针对具体的目标设定了一个特定目标函数。
语言和语音
VAW-GAN (Variational autoencoding Wasserstein GAN) 结合 VAE 和 WGAN 实现了一个语音转换系统。编码器编码语音信号的内容，解码器则用于重建音色。由于 VAE 容易导致生成结果过于平滑，所以此处使用 WGAN 来生成更加清晰的语音信号。
半监督学习
图像数据的标签获得需要大量的人工标注，这个过程费时费力。
利用判别器进行半监督学习
基于 GAN 的半监督学习方法 [12] 提出了一种利用无标签数据的方法。实现方法和原始 GAN 基本一样，具体框架如下 [13]：

相比于原始 GAN，主要区别在于判别器输出一个 K 1 的类别信息（生成的样本为第 K 1 类）。对于判别器，其 Loss 包括两部分，一个是监督学习损失（只需要判断样本真假），另一个是无监督学习损失（判断样本类别）。生成器则只需要尽量生成逼真的样本即可。训练完成后，判别器就可以作为一个分类模型去分类。
从直观上来看，生成的样本主要在于辅助分类器学会区分真实的数据空间在哪里。
使用辅助分类器的半监督学习
上面提及的利用判别器进行半监督学习的模型存在一个问题。判别器既要学习区分正负样本，也要学习预测标签。二者目标不一致，容易导致二者都达不到最优。一个直观的想法就把预测标签和区分正负样本分开。Triple-GAN 就是这么做的 [14]：

1 ...14 15 16 17 18 ...23 查看全文