AI唱歌不仅中英文无压力,还会粤语!微软联手浙大研发出DeepSinger(3)
2023-04-24 来源:飞速影视
通过数据爬取,分离,对齐和过滤之后,基于FastSpeech对唱歌数据进行建模。该模型将歌词,时长,音高信息以及参考音频作为输入来生成歌声。点击链接:https://speechresearch.github.io/deepsinger/可收听不同阶段,AI生成歌声音频。从最终的测试结果可以看出,未经训练的音频和经过DeepSinger模型的音频,在音调、振幅、持续时长上基本吻合;(GT表示真实音频波形图,DeepSinger表示经过模型训练后的音频波形图)
论文中表明,通过歌词,持续时间,音调信息、参考音频等指标的验证,DeepSinger在合成音调准确度和“声音自然度”方面表现出了不错的性能。从数据来看,中英粤语三首歌曲的音高、音准都超过了85%。而且,在一项20人的用户实验中,DeepSinger生成的歌曲与原始培训音频之间的平均差距仅为0.34-0.76。
另外,更值得注意的是,经过数据检索和初级筛选,Singing所使用数据集仅包含89位歌手演唱的92个小时的歌曲。
我们知道,在机器学习中数据集的质量和数量是关键,但也正是在这两个方面往往存在难点。而在本次试验中仅使用了一个小样本即达到不错的性能表现。另外,歌曲和歌词的自动对齐模型在很大程度上也减少了数据标标注带来的失误和成本。
不过,研究人员表示,接下来他们计划使用基于WaveNet模型等更为复杂的AI技术,在DeepSinger中训练各种子模型,以提高语音质量。WaveNet是Googel研发的一款语音驱动模型。
https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
https://arxiv.org/pdf/2007.04590.pdf
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号