AI唱歌不仅中英文无压力,还会粤语!微软联手浙大研发出DeepSinger(2)

2023-04-24 来源:飞速影视
点击链接收听:https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
研究人员称,对于影视从业者来说,DeepSinger会是一个非常实用的工具。当他们完成某些语音类录制工作后,如果发现录制错误,可以用AI辅助语音的合成和修复,而无需再次返工。不过,这款工具也存在一些弊端。就像换脸软件Deepfake可以合成不存在的人像一样,这款DeepSinger同样可以假冒歌手伪造音乐。
而且,目前关于AI音乐版权纠纷的现象已经开始出现了。两个月前,一家唱片公司Roc Nation便提出了反对AI模的版权声明。其原因是,Youtobe博主Vocal Synthesis使用AI技术复制了旗下艺人Zay-Z的两个音乐作品,最终这起案件已删除仿制作品,而道歉声明而结束。
AI多语言歌声合成原理
在机器学习领域,从文本到语音(TTS)的转换有着广泛的使用场景,一直是研究的重点领域。如上文所说,歌曲的韵律和环境比语音更具复杂性,因此,SVS相比于TTS的研究也更有挑战性。
研究人员介绍,此次生成多种语言风格的歌声合成系统DeepSinger,采用了一种含多个数据挖掘和数据建模步骤的研究路径,优化了现有研究的很多困境。这个路径可以分为以下五个步骤:

AI唱歌不仅中英文无压力,还会粤语!微软联手浙大研发出DeepSinger


数据检索(Data crawling)负责从音乐网站抓取顶级歌手多种语言的流行音乐;这里抓取的是中、英、粤三种语言的歌曲,时长一般为1-5分钟。此阶段,需要对数据集进行初级的过滤和清洗。唱歌和伴奏分离(Singing and accompaniment separation):采用开源音乐分离工具Spleeter,从伴奏中提取歌声,然后将音频逐个拆分为句子;歌词和歌唱对齐(Lyrics-to-singing alignment):自动提取歌词中每个音素的持续时间(从粗粒度的句子级别到细粒度的音素级别)。数据筛选(Data filtration):对歌词与演唱未对齐的歌声进行再处理。这里采用分离奖励(Splitting Reward)作为过滤标准,过滤掉分离奖励低于阈值的数据。演唱模型(Singing modeling):
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号