语音识别中多发音问题的处理的方法、装置、设备及介质

发明公开

CN118748009A 语音识别中多发音问题的处理的方法、装置、设备及介质审中-实审

请登陆查看更多内容

专利标题： 语音识别中多发音问题的处理的方法、装置、设备及介质
申请号： CN202410913691.8

申请日： 2024-07-09
公开(公告)号： CN118748009A

公开(公告)日： 2024-10-08
发明人: 李杰
申请人： 深圳市友杰智新科技有限公司
申请人地址： 广东省深圳市南山区招商街道沿山社区沿山路22号火炬大厦701
专利权人： 深圳市友杰智新科技有限公司
当前专利权人： 深圳市友杰智新科技有限公司
当前专利权人地址： 广东省深圳市南山区招商街道沿山社区沿山路22号火炬大厦701
代理机构： 深圳市明日今典知识产权代理事务所
代理商 王杰辉; 宋莉
主分类号： G10L15/02
IPC分类号： G10L15/02 ; G10L15/06 ; G10L15/00 ; G10L15/183 ; G10L15/26 ; G10L15/08

摘要：

本申请涉及到语音识别技术领域，公开了语音识别中多发音问题的处理的方法、装置、设备及介质，其方法包括：构建文本语料，并将所述文本语料中包含的单词序列转为音素序列；基于所述音素序列，通过音素拼接构造伪单词；使用伪单词替换发音词典中的单词；将所有伪单词按照发音词典的格式整理成伪单词列表，并更新发音词典；使用更新后的所述发音词典对语音识别模型进行区分性训练。本申请解决了命令词识别过程中多发音问题导致的识别准确性下降的问题，通过伪单词的构造和替换，显著减少了网络模型占用的空间和解码所需的空间，使得该方法能够在资源极低的设备上进行部署。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/02	.语音识别的特征提取；识别单位的选择