网易互娱AILab新技术全球首个落地的舞蹈动画合成系统(5)
2023-06-01 来源:飞速影视
在 Style 方面,ChoreoMaster 首先利用有风格标签的音乐数据和动作数据独立训练两个分类网络,音乐分类网络采用了在 music tagging 领域 SOTA 的卷积循环 backbone,包含四个卷积层和两个 GRU 层。动作分类网络则采用了对称的设计,只是将其中的卷积层替换成了经常应用于骨骼动画数据的图卷积层。由于这两个网络独立训练,所以这个阶段并不需要配对的音乐舞蹈数据。
在两个分支各自训练到收敛的基础上,ChoreoMaster 利用配对的音乐和舞蹈数据对这两个分支进行联合训练,训练目标是让两个网络在尽量保持自身分类准确率的前提下,将配对的音乐和舞蹈数据映射为距离尽量小的特征向量。经过独立 联合两阶段的训练,音乐和动作两个分支最后一层输出的 32 维向量就构成了音乐和动作的 Style Embedding,两个 Style Embedding 之间的欧氏距离就可以定量度量音乐 - 音乐、音乐 - 动作、动作 - 动作之间的风格契合度。
与 Style 不同的是,音乐的 Rhythm 是可以从乐理角度给出明确定义的。在编曲时,音乐都会按均等的时间单位进行组织,其中最小的单位就是一拍。所谓 Rhythm 指的就是音乐中强拍和弱拍的组合规律。一首音乐中的强、弱拍的组合并不是杂乱无章的,而是会呈现出一定的规律,表达这种规律的最小单位是小节(meter),同一首音乐中每小节的长度也是固定的。例如 3/4 拍音乐,指的是 4 分音符为一拍,每小节 3 拍。2/4、3/4、4/4 这种拍号标记称为音乐的 Time Signature。
由于顿音符、连音符、修饰符等标记的存在,在实际演奏的音乐中,小节内的重拍并不一定严格出现在 Time Signature 所定义的位置,还会存在空拍、半拍等情况。因此 ChoreoMaster 将 Rhythm Embedding 表示为一个称为 Rhythm Signature 的 0-1 向量,其中的偶数位和奇数位分别对应音乐 Time Signature 中的主拍和半拍位置,每个位置的值则表示该位置是否存在实际的乐器节奏点(1:存在,0 不存在)。Rhythm Signature 中连续的 0 对应了乐谱中的连奏(legato)。由于收集的数据集和业务实际需求基本都是 4 拍音乐,因此在 ChoreoMaster 目前的实现中,Rhythm Signature 被定义为 8 位,如下图所示。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号