语音合成数据的质检方法以及装置
摘要:
本申请公开了一种语音合成数据的质检方法以及装置,属于语音合成领域,质检方法包括:根据原始文本,使用不同的语音合成方式合成多条目标音频;通过ASR模型对多条目标音频进行识别,得到各自的识别文本;在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格;在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格;通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值;根据音素的概率值进行音素的发音打分;通过回归模型将音素的得分转化为相应的句子的得分;在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。
公开/授权文献
0/0