AI凭什么超越人类修图师?万字长文看懂美图云修AI修图解决方案(15)
2023-05-04 来源:飞速影视
对于方案中的整个网络结构,以及 perceptual loss、L1 loss、L2 loss 和 Gan loss,方案参考了论文 EdgeConnect[16]中的网络结构并结合自有方案进行了调整。仅用网络输入图①和网络输入图②训练网络模型,会造成生成的牙齿并不美观甚至不符合常规,为了使网络模型可以生成既美观又符合常规逻辑的牙齿,本方案构建了一个双分支输入的全卷积网络,第二个分支输入的是一张牙齿的「参考图」,训练时,该参考图是从训练数据集中随机选择的,参考图可以对网络生成符合标准的牙齿起到正向引导的作用:
第一个分支为 6 通道输入,输入为图①和图②的 concat,并归一化到(-1,1)区间;第二个分支为 3 通道输入,输入图像是在构建的训练数据集中随机挑选的“参考图”,同样归一化到(-1,1)区间;G 网络是本质上是一个 AutoEncoder 的结构,解码部分的上采样采用的是双线性上采样 卷积层的结合,与论文中 [16] 有所不同,为了减轻生成图像的 artifacts 和稳定训练过程,本方案中的归一化层统一都采用 GroupNorm,而网络最后一层的输出层激活函数为 Tanh。
判别网络部分:判别网络采用的是 multi_scale 的 Discriminator,分别判别不同分辨率下的真假图像。本方案采用 3 个尺度的判别器,判别的是 256x256,128x128,64x64 三个尺度下的图像。获得不同分辨率的图像,直接通过 Pooling 下采样即可。
Loss 函数的设计包括 L1 loss, L2 loss, Perceptual loss 和 GAN loss。其中 L1 loss 和 L2 loss 可以保证图像色彩的一致性;GAN loss 使得生成图像的细节更加真实,也使得生成的牙齿更加清晰、自然、更加具有立体度和光影信息;Perceptual loss 限制图像感知的相似性,以往的 VGG loss 往往会造成颜色失真与假性噪声的问题,本方案采用的是更加符合人类视觉感知系统的 lpips(Learned Perceptual Image Patch Similarity) loss[17],很大程度上缓解了上述问题,使生成图像具有更加自然的视觉效果;上述这几个 loss 相加就构成了 MTAITeeth 方案的损失函数。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号