-
公开(公告)号:CN113436619A
公开(公告)日:2021-09-24
申请号:CN202110594164.1
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/06 , G10L15/08 , G10L19/18 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/30 , G10L25/45 , G10L25/54 , H04L9/32 , G10L15/14
Abstract: 本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。
-
公开(公告)号:CN110119648A
公开(公告)日:2019-08-13
申请号:CN201810111564.0
申请日:2018-02-05
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明公开了一种基于光学字符识别的传真图像分类方法,所述方法包括:步骤1)对扫描得到的传真图像进行噪声消除;步骤2)对噪声消除后的传真图像进行二值化处理;步骤3)对步骤2)得到的二值化图像进行仿射变换校准文本;步骤4)利用OCR方法对步骤3)处理后的传真图像进行识别,得到编码为UTF-8的输出字符串和转写置信度;步骤5)对字符串进行关键词正则匹配,得到传真图像的分类。本发明的方法利用频谱噪声消除和灰度图像二值化的预处理,在满足实时性要求的前提下提升了电子扫描得到的传真图像的质量;使传真图像能够使用基于OCR的分类方法,由此实现了传真图像的自动化分类。
-
公开(公告)号:CN113420123B
公开(公告)日:2025-01-14
申请号:CN202110705729.9
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/3329 , G06F16/334 , G06F18/214 , G06N3/02
Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。
-
公开(公告)号:CN113420123A
公开(公告)日:2021-09-21
申请号:CN202110705729.9
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06K9/62 , G06N3/02
Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。
-
公开(公告)号:CN113420121A
公开(公告)日:2021-09-21
申请号:CN202110704938.1
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06K9/62
Abstract: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN108281137A
公开(公告)日:2018-07-13
申请号:CN201710002097.3
申请日:2017-01-03
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种全音素框架下的通用语音唤醒识别方法及系统,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型,解码过程中限制解码路径,可以提高唤醒性能,同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析,消除虚警率升高的隐患。
-
公开(公告)号:CN110895933B
公开(公告)日:2022-05-03
申请号:CN201811030952.2
申请日:2018-09-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST‑RES‑LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST‑RES‑LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
-
公开(公告)号:CN113420121B
公开(公告)日:2023-07-28
申请号:CN202110704938.1
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06F18/214
Abstract: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN113436619B
公开(公告)日:2022-08-26
申请号:CN202110594164.1
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/06 , G10L15/08 , G10L19/18 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/30 , G10L25/45 , G10L25/54 , H04L9/32 , G10L15/14
Abstract: 本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。
-
公开(公告)号:CN110895933A
公开(公告)日:2020-03-20
申请号:CN201811030952.2
申请日:2018-09-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
-
-
-
-
-
-
-
-
-