-
公开(公告)号:CN111243578A
公开(公告)日:2020-06-05
申请号:CN202010027248.2
申请日:2020-01-10
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法,将位置相关注意力机制分类和联结主义分类进行融合,其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题,提高了端到端语音识别系统性能。
-
公开(公告)号:CN111145718A
公开(公告)日:2020-05-12
申请号:CN201911395278.2
申请日:2019-12-30
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法,进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合,其中自注意力机制用来捕捉输入句子中字符的依赖关系,多任务学习引入额外的词性和三个拼音属性作为子任务;并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息;最后发音可以由主任务预测结果得出,也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。
-
公开(公告)号:CN106803422B
公开(公告)日:2020-05-12
申请号:CN201510844693.7
申请日:2015-11-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
-
公开(公告)号:CN111081267A
公开(公告)日:2020-04-28
申请号:CN201911415062.8
申请日:2019-12-31
Applicant: 中国科学院声学研究所
IPC: G10L21/0216 , G10L21/0224 , G10L21/0232
Abstract: 本发明公开了一种多通道远场语音增强方法,包括:对多通道远场语音时域信号处理得到多通道远场语音频域信号,再通过加权预测误差算法处理得到抑制晚期混响后的多通道远场语音频域信号并估计出干扰;使用干扰协方差矩阵和抑制晚期混响后的多通道远场语音频域信号,通过协方差白化的方法计算相对早期传输函数作为导向矢量;利用干扰协方差矩阵和导向矢量对抑制晚期混响后的多通道远场语音频域信号依次进行最小方差无失真响应波束形成处理和单通道维纳滤波处理得到单通道语音频域信号,在其为单通道目标语音频域信号时进行逆傅里叶变换,得到目标语音时域信号。本方法可以同时有效抑制远场语音中的噪声和混响的干扰并保持目标声源的完整。
-
公开(公告)号:CN110875044A
公开(公告)日:2020-03-10
申请号:CN201811002308.4
申请日:2018-08-30
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于字相关得分计算的说话人识别方法,所述方法包括:步骤1)建立训练样本集,提取训练样本集中每个语音的特征向量,组成特征集合,利用该特征集合训练得到通用背景模型UBM;步骤2)基于DTW切分算法,将注册语音和测试语音分别切分为单独中文字的片段,利用通用背景模型UBM得到注册语音的每个字的GMM模型,由此计算注册语音和测试语音中相同中文字的语音谱特征片段的相似度,加权求和后得到判决分数S;步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较:当S超过设定的阈值时,验证通过;否则,验证失败。本发明的方法能使说话人识别系统在密码口令长度较短的情况下,仍有很高的识别性能。
-
公开(公告)号:CN110858480A
公开(公告)日:2020-03-03
申请号:CN201810928881.1
申请日:2018-08-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于N元文法神经网络语言模型的语音识别方法,所述方法包括:步骤1)建立并训练一个n阶N元文法神经网络语言模型;步骤2)对于每一条测试语音u,利用识别器选取K个得分最高的候选结果;基于训练好的n阶N元文法神经网络语言模型重新计算K个候选结果的语言模型得分;然后重新计算K个候选结果的得分,选取得分最高的候选结果作为测试语音u的最终识别结果。本发明的语音识别方法的性能及计算效率均优于基于RNN的语言模型的语音识别方法。
-
公开(公告)号:CN106959967B
公开(公告)日:2019-11-19
申请号:CN201610018320.9
申请日:2016-01-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G06F16/953 , H04L12/24 , H04L12/751
Abstract: 本发明提供了一种链路预测模型的训练方法,所述方法包括:步骤S1)对抓取网络数据进行预处理,将预处理后的网络数据提取训练集;步骤S2)对训练集构造的网络进行特征提取,将提取的特征组成特征集;所述特征包括:基于邻居的特征和基于网络游走的特征;步骤S3)对所述特征集用梯度迭代树模型进行特征转换,得到新的多维特征集;步骤S4)将特征集和新的多维特征集进行融合输入链路预测模型,训练得到所述链路预测模型的参数,从而得到训练完毕的链路预测模型。本发明的方法只需要从现有的特征集入手就能扩展特征集的数量;不需要再从网络中提取新的特征,极大地减少了特征提取难度;而且提升了模型的预测性能和鲁棒性。
-
公开(公告)号:CN106856092B
公开(公告)日:2019-11-15
申请号:CN201510906166.4
申请日:2015-12-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/16
Abstract: 本发明提供了基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,更新各转换矩阵直至前向神经网络模型训练完毕;步骤2)利用前向神经网络模型计算输入词历史的目标词概率;步骤3)将目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在逆序索引中检索关键词,返回命中关键词及其出现的时间。
-
公开(公告)号:CN110085215A
公开(公告)日:2019-08-02
申请号:CN201810064982.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型 在训练数据集上估计N元文法语言模型 最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
-
公开(公告)号:CN110070887A
公开(公告)日:2019-07-30
申请号:CN201810065070.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
-
-
-
-
-
-
-
-
-