-
公开(公告)号:CN110085215B
公开(公告)日:2021-06-08
申请号:CN201810064982.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型在训练数据集上估计N元文法语言模型最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
-
公开(公告)号:CN110070887B
公开(公告)日:2021-04-09
申请号:CN201810065070.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
-
公开(公告)号:CN112489622A
公开(公告)日:2021-03-12
申请号:CN201910782981.2
申请日:2019-08-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。
-
公开(公告)号:CN112309421A
公开(公告)日:2021-02-02
申请号:CN201910689178.4
申请日:2019-07-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G10L25/45 , G10L25/60
Abstract: 本发明属于语音增强信号处理技术领域,具体涉及一种融合信噪比与可懂度双重目标的语音增强方法,包括:将原始语音信号转换为原始时频域特征;将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征,将语音增强后的时频域特征转换为增强后的语音信号。
-
公开(公告)号:CN111754976A
公开(公告)日:2020-10-09
申请号:CN202010705955.2
申请日:2020-07-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。
-
公开(公告)号:CN111626298A
公开(公告)日:2020-09-04
申请号:CN202010306188.8
申请日:2020-04-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。
-
公开(公告)号:CN111243578A
公开(公告)日:2020-06-05
申请号:CN202010027248.2
申请日:2020-01-10
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法,将位置相关注意力机制分类和联结主义分类进行融合,其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题,提高了端到端语音识别系统性能。
-
公开(公告)号:CN111145718A
公开(公告)日:2020-05-12
申请号:CN201911395278.2
申请日:2019-12-30
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法,进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合,其中自注意力机制用来捕捉输入句子中字符的依赖关系,多任务学习引入额外的词性和三个拼音属性作为子任务;并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息;最后发音可以由主任务预测结果得出,也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。
-
公开(公告)号:CN106803422B
公开(公告)日:2020-05-12
申请号:CN201510844693.7
申请日:2015-11-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
-
公开(公告)号:CN110858480A
公开(公告)日:2020-03-03
申请号:CN201810928881.1
申请日:2018-08-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于N元文法神经网络语言模型的语音识别方法,所述方法包括:步骤1)建立并训练一个n阶N元文法神经网络语言模型;步骤2)对于每一条测试语音u,利用识别器选取K个得分最高的候选结果;基于训练好的n阶N元文法神经网络语言模型重新计算K个候选结果的语言模型得分;然后重新计算K个候选结果的得分,选取得分最高的候选结果作为测试语音u的最终识别结果。本发明的语音识别方法的性能及计算效率均优于基于RNN的语言模型的语音识别方法。
-
-
-
-
-
-
-
-
-