-
公开(公告)号:CN110858480B
公开(公告)日:2022-05-17
申请号:CN201810928881.1
申请日:2018-08-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于N元文法神经网络语言模型的语音识别方法,所述方法包括:步骤1)建立并训练一个n阶N元文法神经网络语言模型;步骤2)对于每一条测试语音u,利用识别器选取K个得分最高的候选结果;基于训练好的n阶N元文法神经网络语言模型重新计算K个候选结果的语言模型得分;然后重新计算K个候选结果的得分,选取得分最高的候选结果作为测试语音u的最终识别结果。本发明的语音识别方法的性能及计算效率均优于基于RNN的语言模型的语音识别方法。
-
公开(公告)号:CN110047478B
公开(公告)日:2021-06-08
申请号:CN201810040168.3
申请日:2018-01-16
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/16
Abstract: 本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。
-
公开(公告)号:CN106847267B
公开(公告)日:2020-04-14
申请号:CN201510885336.5
申请日:2015-12-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101‑1)对语音流进行端点检测,去除静音段;步骤101‑2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101‑3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101‑4)再将步骤101‑3)的处理结果输入HMM检测器进行初次判决。
-
公开(公告)号:CN106847259B
公开(公告)日:2020-04-03
申请号:CN201510882805.8
申请日:2015-12-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
-
公开(公告)号:CN106294460B
公开(公告)日:2019-10-22
申请号:CN201510291079.2
申请日:2015-05-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出了一种基于字和词混合语言模型的关键词检索方法及系统,所述方法包含:步骤101),根据词性区分训练语料中非常见词和常见词,为组成非常见词的各个字添加标识信息,将原训练语料划分为由常见词和标识非常见词信息的符号构成的新语料;根据新语料构建词的语言模型并根据原训练语料按单字重新训练一个语言模型进而得到字的语言模型;步骤102)构建主解码网络和子解码网络,基于主解码网络和子解码网络进行关键词检索;其中,当进行解码时由所述词的语言模型决定是否进入带有标识非常见词信息的节点,且带有标识非常见词信息的节点连接一个由全部单字构成的子解码网络,当进入子解码网络后由所述字的语言模型限制搜索范围。
-
公开(公告)号:CN109427330A
公开(公告)日:2019-03-05
申请号:CN201710790753.0
申请日:2017-09-05
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/14
Abstract: 本发明一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型;步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性,能够有效的提升语音识别的正确率。
-
公开(公告)号:CN105321518B
公开(公告)日:2018-12-04
申请号:CN201410387404.0
申请日:2014-08-05
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/26
Abstract: 本发明涉及一种低资源嵌入式语音识别的拒识方法,该方法包括:基于命令词表和垃圾音素列表,分别构建命令词解码网络和垃圾音素解码网络,将垃圾音素解码网络并联到命令词解码网络中,形成完整的解码网路空间;生成语音背景概率得分表。将待识别语音输入解码网络空间进行第一次识别:解码识别,对第一次识别结果中的垃圾因素拒识,再对第一次识别结果中的命令词进行第二次判别:置信度判别,得到最终识别结果。本方法可提高对集外词的拒识率,节省内存占用,满足了低资源条件嵌入式语音识别的应用需求。
-
公开(公告)号:CN108269583A
公开(公告)日:2018-07-10
申请号:CN201710001937.4
申请日:2017-01-03
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L21/0308 , G10L25/03
Abstract: 本发明涉及一种基于时间延迟直方图的语音分离方法,包括:将声源信号转换成数字声音信号;提取数字声音信号的频谱;利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;利用时间延迟的估计值来计算每个语音源的波达方向估计值;利用每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及数字声音信号的频谱计算频域上的分离信号;在每个掩摸上对频域的分离信号进行傅里叶逆变换,得到分离的语音。
-
公开(公告)号:CN104571485B
公开(公告)日:2017-12-12
申请号:CN201310517226.4
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出了一种基于Java Map的人机语音交互系统及方法,所述系统包含:语音识别模块,用于接收用户输入的语音信息,并将语音信息识别为文本数据;口语理解模块,用于对文本数据进行语义挖掘,并且转换为机器能够识别的形式,其中语义挖掘中基于Java Map的上下文关键语义要素的存储与利用策略将会对用户输入的上下文信息进行整合,且所述语义挖掘为将识别的文本进行语义关键要素的抽取;对话管理模块,用于控制人机交互的对话流程;语言生成模块,用于将零碎的答案进行整合,得到通顺、符合人的逻辑语言表示形式的文本;语音合成模块,用于将生成的答案文本转化为语音信息,并将语音信息播报给用户。
-
公开(公告)号:CN107292382A
公开(公告)日:2017-10-24
申请号:CN201610191900.8
申请日:2016-03-30
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种神经网络声学模型激活函数定点量化方法,该方法具体包括:步骤(1)在DNN模型的第l层,将所述第l-1层的浮点激活向量中x(l-1)=[x1,…,xN]T的每个浮点激活值线性地量化为0~2K的整数,得到所述第l-1层的线性定点量化的激活向量x*(l-1);步骤(2)对步骤(1)中得到的所述第l-1层的线性定点量化的激活向量x*(l-1)中的每个激活值进一步分级,即将所述每个激活值近似为最为邻近的2的整次幂,最终得到所述第l-1层的分级定点量化激活向量x**(l-1);步骤(3)对第l层进行线性定点量化,即将该层浮点型权值矩阵W(l)的权值wM,N线性地量化为-127到127间的整数;步骤(4)进行DNN第l层的前馈计算,最终得到第l层的浮点型激活向量x(l)。
-
-
-
-
-
-
-
-
-