网易互娱AILab新技术全球首个落地的舞蹈动画合成系统(6)
2023-06-01 来源:飞速影视
两个 Rhythm Signature 之间的距离可以定义为带权曼哈顿距离(偶数位权重 1,奇数位权重 0.5)。这样,8 位的 Rhythm Signature 天然构成了一种低维 Embedding。理论上所有可能的 Rhythm Signature 多达 256 种,但是在让专业人员对数据库中所有成对的音乐和舞蹈数据进行标注后,研究人员统计发现,常见的 Rhythm Signature 其实只有 13 种。因此 Rhythm 分支的目标可以通过一个简单的分类网络进行实现,该网络同样包含音乐和动作两个分支,各自以 2 个卷积层 1 个全连接层进行特征提取,之后送入权重共享的 3 个全连接层进行分类。
与 Style 分支不同的是,节奏信息更直观地反应在音乐的强弱变化和动作的速度、加速度等信息中,因此 Rhythm 分支以音乐信号的 energy、onset 和动作数据骨骼点的速度、加速度、触地等高层信息作为输入。此外,由于 Rhythm Signature 的分布与音乐 / 舞蹈的风格存在明显的相关性(如国风舞蹈的 Rhythm Signature 中会包含更多的 0,街舞的 Rhythm Signature 中则会包含更多的半拍),因此音乐 / 舞蹈的 Style Embedding 信息也被送入了 Rhythm 分支,跟 Rhythm 特征拼接在一起,送入权重共享的三个全连接分类层。
从前面的介绍中可以发现,ChoreoMaster 没有像很多其他基于深度学习的音乐舞蹈合成框架一样,用一个统一的网络来构建音乐 - 舞蹈之间的跨模态关联,而是采用了一种解耦的方式来处理 Style 和 Rhythm。站在实用的角度来看,ChoreoMaster 的这种设计有两方面考虑:一方面,将 Style 和 Rhythm 解耦,可以提升后续合成算法的可解释性和可控性;另一方面,独立的 Rhythm 分支也可以更好地融入乐理先验,提升网络的可用性和泛化性。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号