当前位置：首页 > 资讯 >

AI凭什么超越人类修图师？万字长文看懂美图云修AI修图解决方案(15)

2023-05-04 来源:飞速影视

对于方案中的整个网络结构，以及 perceptual loss、L1 loss、L2 loss 和 Gan loss，方案参考了论文 EdgeConnect[16]中的网络结构并结合自有方案进行了调整。仅用网络输入图①和网络输入图②训练网络模型，会造成生成的牙齿并不美观甚至不符合常规，为了使网络模型可以生成既美观又符合常规逻辑的牙齿，本方案构建了一个双分支输入的全卷积网络，第二个分支输入的是一张牙齿的「参考图」，训练时，该参考图是从训练数据集中随机选择的，参考图可以对网络生成符合标准的牙齿起到正向引导的作用：
第一个分支为 6 通道输入，输入为图①和图②的 concat，并归一化到（-1，1）区间；第二个分支为 3 通道输入，输入图像是在构建的训练数据集中随机挑选的“参考图”，同样归一化到（-1，1）区间；G 网络是本质上是一个 AutoEncoder 的结构，解码部分的上采样采用的是双线性上采样卷积层的结合，与论文中 [16] 有所不同，为了减轻生成图像的 artifacts 和稳定训练过程，本方案中的归一化层统一都采用 GroupNorm，而网络最后一层的输出层激活函数为 Tanh。
判别网络部分：判别网络采用的是 multi_scale 的 Discriminator，分别判别不同分辨率下的真假图像。本方案采用 3 个尺度的判别器，判别的是 256x256，128x128，64x64 三个尺度下的图像。获得不同分辨率的图像，直接通过 Pooling 下采样即可。
Loss 函数的设计包括 L1 loss, L2 loss, Perceptual loss 和 GAN loss。其中 L1 loss 和 L2 loss 可以保证图像色彩的一致性；GAN loss 使得生成图像的细节更加真实，也使得生成的牙齿更加清晰、自然、更加具有立体度和光影信息；Perceptual loss 限制图像感知的相似性，以往的 VGG loss 往往会造成颜色失真与假性噪声的问题，本方案采用的是更加符合人类视觉感知系统的 lpips(Learned Perceptual Image Patch Similarity) loss[17]，很大程度上缓解了上述问题，使生成图像具有更加自然的视觉效果；上述这几个 loss 相加就构成了 MTAITeeth 方案的损失函数。

1 ...13 14 15 16 17 ...19 查看全文

AI凭什么超越人类修图师？万字长文看懂美图云修AI修图解决方案(15)

大耳朵图图之美食狂想曲

武林秘案之美人图鉴

普什图人

大耳朵图图之霸王龙在行动

美人图

凡人修真张天师

云图

长江图