「万字长文」虚拟人漫谈|技术篇(9)
2023-05-20 来源:飞速影视
CV类技术有非常广泛的应用,例如人脸识别、姿态识别、障碍物识别等,这些具体的应用技术均可以和虚拟人赛道进一步结合来满足虚拟人的不同应用场景。
听:语音识别ASR
将听到的声音转化成语言的技术,主要分为声音接收和声音识别两个部分。声音接受部分主要依赖于硬件、环境及声源,一般来说,较高级的声音接收设备、噪音较小的环境,发音标准且音量适中的声源均会提升声音接收的质量。
声音识别部分主要依赖于机器学习及其中的深度学习等AI技术,主要可分为传统方法和端到端方法:
传统方法:需要先提取声音信息特征,例如MFCC、LPCC等,这里主要涉及信号处理相关知识;提取特征后再采用HMM、语言模型等综合得出识别结果。端到端方式:主要依托于深度学习技术,由于语音本身是具有时序性的(倒放的语音很难听懂),因此语音识别主要依托以RNN为基础的时序类深度学习模型,例如其衍生出的LSTM、GRU等,来完成语音到文字的转化工作。说:语音合成TTS
把文字转化成语音播放出来的技术就是TTS技术,能形成自然、流畅、动听的声音是TTS技术所追求的目标。
从技术的角度来看,TTS系统主要分为前端系统和后端系统:前端系统负责对文字进行分析,并形成一份“发音指南”,里面包括每个字的读音音素、连读、重音、停顿、多音字读法等,这份“发音指南”就像一个发音“说明书”,会传给后端。
后端系统按照前端生成的“发音说明书”,负责把声音合成出来,目前主流的后端合成技术有两大类,分别是“拼接法”和“参数法”。
拼接法:先通过真人录制声音,再根据“说明书”把需要的声音片段拼合起来,这种方法优点是声音本身自然动听,缺点是人力成本高,且流畅度容易出现问题。参数法:用声音信号的参数,如基频、频谱等来表示声音,将“声音说明书”中每一个音素的“参数”找出来,合成对应的声音;参数法的优点是成本低,缺点是机械感比较明显,不够自然,不过该方法会随着技术发展效果越来越好,应用范围也会越来越广;目前比较主流的参数法一般是使用端到端的方法,例如Tacotron2、WaveNet等。2. 认知
认知是在感知的基础上进一步形成的思考能力,这里我把认知能力进一步分成两个方面,分别是理性的认知能力和感性的情感识别能力。
理性认知能力
1)知识:知识图谱KG
知识主要依赖于知识图谱技术。知识图谱是给知识形成的一个以三元组
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号