让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?

2023-04-28 来源:飞速影视
“通过克隆,把自己心爱之人的声音永久珍藏……这可能就是科技应该有的温度吧。”
与小米的最近一次合作中,深声科技为其提供了声音克隆技术,应用在其最新发布的小爱同学定制声音功能上,能让米粉合成自己的、甚至是父母、儿女、恋人的声音,同时还支持音色分享功能。比如,明星将自己音色分享给粉丝后,就能通过声音实现明星和粉丝的“常相伴”。

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?


智能语音助手这个颇具想象力的AI应用,正逐渐成为智能终端的基础功能,包括智能手机、智能家居、车载、陪伴机器人等,其普及率有了较大提升,而声音克隆技术的应用,很可能会加速整个进程。
说到声音克隆技术,并非深声科技所独有的,但与竞争对手相比,深声科技CEO周俊明表示:“声音克隆技术上,我们在音色还原度、发音准确率、音质清晰度等方面,具有明显的优势,手机语音助手是我们首个落地场景。”
声音克隆面临哪些技术挑战?
2020年1月中旬,深声科技声音克隆产品正式上线。在此期间,深声团队在众多竞争者中成功拿下了小米方的需求标的。作为与小米小爱同学的一次深度合作,深声科技将为之提供声音克隆核心技术支持。
包括双方的需求对接、内部评估,再到交付,前后用了1个多月时间。
与传统语音合成相比,声音克隆面临更大的技术挑战。首先,声音克隆需要C端用户配合录音,就不能对其录音环境和设备有过分要求。
我们会建议用户选择一个尽可能安静的地方,使用手机完成录音过程。
其次,考虑用户的体验,需要尽可能缩短录音的时长。
这就对我们有很高的要求,传统的语音合成需要几十分钟到几个小时的语音数据,相比之下,声音克隆的数据量少,对声学模型的训练有更高的要求,比如发音模糊、发错音、音素覆盖等一系列问题。当然,最重要的还是音色还原度的问题。
现在,用户只需配合朗读20句话短文本,大约录音90秒的语音数据,就能快速克隆出自己的声音,将个人的情感表达、发音特点等信息迁移到合成声音中,就连口音也能很好地克隆出来。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号