AI凭什么超越人类修图师?万字长文看懂美图云修AI修图解决方案(4)
2023-05-04 来源:飞速影视
基于通道的自注意力模块主要关注什么样的通道特征是有意义的,并把那些比较有意义的特征图通道通过加权进行突出体现。高层特征的通道都可以看作是特定于肤质细节信息的响应,通过学习通道之间的相互依赖关系,可以强调相互依赖的特征映射,从而丰富特定语义的特征表示。如图 6 右边红色区域所示,输入与基于位置的肤质细节筛选模块相同的特征图 F∈ R^(H×W×C),对该特征图沿空间维度进行全局平均池化,得到给予空间的描述特征图 F_Spatial ∈ R^(1×1×C),再把 F_Spatial 输入由两个 1x1 卷积层组成表示的多层感知机。为了减少参数开销,感知机隐层激活的尺寸设置为 R^(C/r×1×1),其中 r 是通道降比。这样第一层卷积层输出通道为 C/r,激活函数为 PReLU,第二层卷积层输出通道恢复为 C。
再经过 Sigmoid 激活函数,得到通道权重系数 M_C ∈ R^(C×1×1),由以下公式表示:
其中 σ 表示 Sigmoid 激活函数, Conv_C ∈ R^(C×C/r) 和 Conv_(C/r) ∈ R^(C/r×C) 表示感知机对应的两层, PReLU 表示感知机中间的线性修正单元激活函数。
相同地,将通道权重系数 M_S 和特征图 F 相乘,就可以得到通道加权后的新特征图。将空间加权特征图和通道加权特征图进行通道合并,经过一个 1x1 卷积后与输入自注意力模块前的特征图相加,就可以得到矫正后的最终特征图。
多尺度特征聚合模块
多尺度特征聚合模块 [2] 的作用是对特征感受野进行动态修正,不同尺度的前后层特征图输入模块,通过整合并赋予各自的权重,最终将这些特征进行聚合,输出更为丰富的全局特征,这些特征带有来自多个尺度的上下文信息。
如图 7 所示,以三个不同尺度输入模块为例,模块先使用 1x1 卷积和 PReLU 将上层 L_1 和下层 L_3 的特征通道变换为和当前层 L_2 ∈ R^(H×W×C) 一致,再通过元素和的方式将特征聚合成 L_C=L_1 L_2 L_3,然后经过一个空间维度的全局平均池化得到基于通道的统计 S ∈ R^(1×1×C),之后为了降低计算量经过一个 C/r 的 1x1 卷积和 PReLU 激活函数,生成一个压缩的特征表示 Z∈ R^(1×1×r),r 与自注意力特征筛选模块一致。这里让 Z 经过与尺度数量相同的平行卷积层,得到对应的特征描述向量 v_1、v_2 和 v_3, v_i ∈ R^(1×1×C)。将这些特征描述向量合并,再经过 Softmax 激活函数,得到各个尺度特征通道的校正系数 s_1、s_2 和 s_3, s_i ∈ R^(1×1×C)。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号