当前位置：首页 > 资讯 >

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger(2)

2023-04-24 来源:飞速影视

点击链接收听：https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
研究人员称，对于影视从业者来说，DeepSinger会是一个非常实用的工具。当他们完成某些语音类录制工作后，如果发现录制错误，可以用AI辅助语音的合成和修复，而无需再次返工。不过，这款工具也存在一些弊端。就像换脸软件Deepfake可以合成不存在的人像一样，这款DeepSinger同样可以假冒歌手伪造音乐。
而且，目前关于AI音乐版权纠纷的现象已经开始出现了。两个月前，一家唱片公司Roc Nation便提出了反对AI模的版权声明。其原因是，Youtobe博主Vocal Synthesis使用AI技术复制了旗下艺人Zay-Z的两个音乐作品，最终这起案件已删除仿制作品，而道歉声明而结束。
AI多语言歌声合成原理
在机器学习领域，从文本到语音（TTS）的转换有着广泛的使用场景，一直是研究的重点领域。如上文所说，歌曲的韵律和环境比语音更具复杂性，因此，SVS相比于TTS的研究也更有挑战性。
研究人员介绍，此次生成多种语言风格的歌声合成系统DeepSinger，采用了一种含多个数据挖掘和数据建模步骤的研究路径，优化了现有研究的很多困境。这个路径可以分为以下五个步骤：

数据检索（Data crawling）负责从音乐网站抓取顶级歌手多种语言的流行音乐；这里抓取的是中、英、粤三种语言的歌曲，时长一般为1-5分钟。此阶段，需要对数据集进行初级的过滤和清洗。唱歌和伴奏分离（Singing and accompaniment separation）：采用开源音乐分离工具Spleeter，从伴奏中提取歌声，然后将音频逐个拆分为句子；歌词和歌唱对齐（Lyrics-to-singing alignment）：自动提取歌词中每个音素的持续时间（从粗粒度的句子级别到细粒度的音素级别）。数据筛选（Data filtration）：对歌词与演唱未对齐的歌声进行再处理。这里采用分离奖励（Splitting Reward）作为过滤标准，过滤掉分离奖励低于阈值的数据。演唱模型（Singing modeling）：

1 2 3 4 查看全文

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger(2)

手艺人大会·发型师季

别对映像研出手！

你的鸟儿会唱歌

大明群英粤语版

如果这些墙会歌唱

一周的说唱歌手

中国成语大会第二季

2023浙江卫视跨年晚会