当前位置：首页 > 资讯 >

AI凭什么超越人类修图师？万字长文看懂美图云修AI修图解决方案(4)

2023-05-04 来源:飞速影视

基于通道的自注意力模块主要关注什么样的通道特征是有意义的，并把那些比较有意义的特征图通道通过加权进行突出体现。高层特征的通道都可以看作是特定于肤质细节信息的响应，通过学习通道之间的相互依赖关系，可以强调相互依赖的特征映射，从而丰富特定语义的特征表示。如图 6 右边红色区域所示，输入与基于位置的肤质细节筛选模块相同的特征图 F∈ R^(H×W×C)，对该特征图沿空间维度进行全局平均池化，得到给予空间的描述特征图 F_Spatial ∈ R^(1×1×C)，再把 F_Spatial 输入由两个 1x1 卷积层组成表示的多层感知机。为了减少参数开销，感知机隐层激活的尺寸设置为 R^(C/r×1×1)，其中 r 是通道降比。这样第一层卷积层输出通道为 C/r，激活函数为 PReLU，第二层卷积层输出通道恢复为 C。
再经过 Sigmoid 激活函数，得到通道权重系数 M_C ∈ R^(C×1×1)，由以下公式表示：

其中 σ 表示 Sigmoid 激活函数， Conv_C ∈ R^(C×C/r) 和 Conv_(C/r) ∈ R^(C/r×C) 表示感知机对应的两层, PReLU 表示感知机中间的线性修正单元激活函数。
相同地，将通道权重系数 M_S 和特征图 F 相乘，就可以得到通道加权后的新特征图。将空间加权特征图和通道加权特征图进行通道合并，经过一个 1x1 卷积后与输入自注意力模块前的特征图相加，就可以得到矫正后的最终特征图。
多尺度特征聚合模块
多尺度特征聚合模块 [2] 的作用是对特征感受野进行动态修正，不同尺度的前后层特征图输入模块，通过整合并赋予各自的权重，最终将这些特征进行聚合，输出更为丰富的全局特征，这些特征带有来自多个尺度的上下文信息。
如图 7 所示，以三个不同尺度输入模块为例，模块先使用 1x1 卷积和 PReLU 将上层 L_1 和下层 L_3 的特征通道变换为和当前层 L_2 ∈ R^(H×W×C) 一致，再通过元素和的方式将特征聚合成 L_C=L_1 L_2 L_3，然后经过一个空间维度的全局平均池化得到基于通道的统计 S ∈ R^(1×1×C)，之后为了降低计算量经过一个 C/r 的 1x1 卷积和 PReLU 激活函数，生成一个压缩的特征表示 Z∈ R^(1×1×r)，r 与自注意力特征筛选模块一致。这里让 Z 经过与尺度数量相同的平行卷积层，得到对应的特征描述向量 v_1、v_2 和 v_3， v_i ∈ R^(1×1×C)。将这些特征描述向量合并，再经过 Softmax 激活函数，得到各个尺度特征通道的校正系数 s_1、s_2 和 s_3， s_i ∈ R^(1×1×C)。

1 2 3 4 5 6 ...19 查看全文

AI凭什么超越人类修图师？万字长文看懂美图云修AI修图解决方案(4)

大耳朵图图之美食狂想曲

武林秘案之美人图鉴

普什图人

大耳朵图图之霸王龙在行动

美人图

凡人修真张天师

云图

长江图