发明授权
- 专利标题: 语音合成数据的质检方法以及装置
-
申请号: CN202110562516.5申请日: 2021-05-24
-
公开(公告)号: CN113035236B公开(公告)日: 2021-08-27
- 发明人: 张晴晴 , 朱冬 , 张雪璐 , 贾艳明
- 申请人: 北京爱数智慧科技有限公司
- 申请人地址: 北京市海淀区北三环中路44号4号楼4层411
- 专利权人: 北京爱数智慧科技有限公司
- 当前专利权人: 北京爱数智慧科技有限公司
- 当前专利权人地址: 北京市海淀区北三环中路44号4号楼4层411
- 代理机构: 北京智沃律师事务所
- 代理商 吴志宏
- 主分类号: G10L25/51
- IPC分类号: G10L25/51 ; G10L15/26 ; G10L15/16 ; G10L13/02
摘要:
本申请公开了一种语音合成数据的质检方法以及装置,属于语音合成领域,质检方法包括:根据原始文本,使用不同的语音合成方式合成多条目标音频;通过ASR模型对多条目标音频进行识别,得到各自的识别文本;在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格;在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格;通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值;根据音素的概率值进行音素的发音打分;通过回归模型将音素的得分转化为相应的句子的得分;在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。
公开/授权文献
- CN113035236A 语音合成数据的质检方法以及装置 公开/授权日:2021-06-25