让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?(2)
2023-04-28 来源:飞速影视
再次,在实际应用中,还要考虑海量用户发起声音克隆请求的高并发问题。为了节约成本,提升用户体验,就要解决模型切换、模型并发数,以及合成延迟等一系列挑战。
海量用户对声音克隆的频繁调用时,模型间的切换逻辑非常重要。
最后,因为采集到的用户数据会上传到服务器进行模型训练,考虑到用户隐私安全的保护,团队提供了私有化部署的方案,以确保用户数据不外泄。
是否迎来大规模商业化?
过去一段时间,百度、讯飞、搜狗等公司也曾推出声音克隆服务,但似乎并未赢得用户市场的关注。为什么深声科技此次声音克隆技术的上线,会在用户市场引起如此大的反响呢?
周俊明表示,声音克隆大规模商业化需要具备几个条件:
一是克隆的声音有较高的音色还原度,跟真人声音无差异;二是用户使用门槛不能太高,例如录音条件、发音标准等不能有太高要求;三是对计算资源的消耗,需要具备个人都能用得起的基础;四是具备创造出真正的价值,能够提升人们的生活品质。
从这个角度来讲,深声科技与小米的合作开始,就已经具备了将声音克隆技术大规模商业化的能力。
在谈到与普通语音合成的差异时,周俊明表示:
普通语音合成,解决的是如何将语音内容很好地传递出去、更容易地被接收的问题。而声音克隆,体现了用户的社会属性,能够让用户通过声音来服务于他人。这就意味着,每个人的声音的价值能够得到充分体现,在包括亲子互动、情感陪伴、泛娱乐在内的各种场景中具有巨大的应用价值。
安全问题如何解决?
将声音克隆引入智能语音助手,会不会引发更多语音诈骗案件的发生?
目前可能普通存在这样的担忧:合成技术的水平发展越高,合成语音与人声的差异就越小,技术鉴定的难度就越大。对此,周俊明也指出,
不必过度担心。问题在于人耳的敏感度不够高,才会对克隆声音没有发觉。但应用技术手段进行区分还是毫无压力的,克隆出来的声音在语谱图中跟真人的声音有明显区别,克隆声音中的很多特征信息已经丢失了。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号