-
公开(公告)号:CN101645064B
公开(公告)日:2011-04-06
申请号:CN200810239727.X
申请日:2008-12-16
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。
-
公开(公告)号:CN101853661A
公开(公告)日:2010-10-06
申请号:CN201010178166.4
申请日:2010-05-14
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种基于非监督学习的噪声功率谱估计与语音活动度检测方法,包括下列步骤:1)对于语音信号在每一个频点上的对数幅度特征,建立一个GMM模型;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的GMM模型进行初始化,得到初始化的模型λ0,k;3)在得到初始化的模型λ0,k之后,从第M+1帧开始,采用增量学习的方法,逐帧更新GMM模型,依次递推得到并得出噪声值和语音信号在第i帧的第k个频点上的出现概率。本发明是谱估计与语音活动度检测的紧耦合解决方案,能够增强语音应用系统对噪声环境的适应性;本发明不依赖于“噪声起始”假设,并且,本发明还能够提供语音活动度在时频二维空间上的描述。
-
公开(公告)号:CN1753083B
公开(公告)日:2010-05-05
申请号:CN200410078336.6
申请日:2004-09-24
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 在根据本发明的语音标记方法中,首先在语音注册阶段,采用由语音识别技术发展而成的语音标记算法,将用户注册时的语音转换成文本进行存储。这样,对于所有待识别的词汇,只需要建立一个识别词表的数据库。在进行识别时,对于用户的发音,按照通用的语音识别系统的流程来进行识别,即提取语音的特征,利用识别词表的信息建立识别语法,基于识别语法和声学模型,对于待识别语音的特征序列在整个候选空间中进行搜索匹配,寻找匹配概率最大的词作为识别结果。本发明还提供了相应的语音标记系统以及采用语音标记的语音识别方法和系统。通过本发明的语音标记方法和系统,能够显著提高语音识别系统的准确度、适应性和灵活性,降低系统所需的存储空间。
-
公开(公告)号:CN101651788A
公开(公告)日:2010-02-17
申请号:CN200810224791.0
申请日:2008-12-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: H04N5/278
Abstract: 本发明涉及一种在线语音文本对齐系统及方法,该系统包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,sωe),估计在局部意义下的句子末尾时间*。本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。
-
公开(公告)号:CN101447183A
公开(公告)日:2009-06-03
申请号:CN200810110479.9
申请日:2008-06-05
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/00
Abstract: 本发明涉及一种应用于语音识别系统的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合处理得到置信度。本发明的语音识别置信度评价方法,只使用了一遍语音识别解码,同时利用了多个知识源,与以往的方法相比,该方法在大幅提高计算速度的同时,也使置信度计算的结果更为准确有效。
-
公开(公告)号:CN100431003C
公开(公告)日:2008-11-05
申请号:CN200410090801.8
申请日:2004-11-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于语音识别领域,具体的说,涉及一种基于混淆网络的语音解码方法,包括步骤:1)对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;3)在混淆网络上以后验概率最大为准则匹配搜索出最优结果。与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,有效的缩减了网络,提高了解码速率;同时本发明还克服了现有多遍解码系统中解码失误无法修复的缺点。
-
公开(公告)号:CN1284134C
公开(公告)日:2006-11-08
申请号:CN200410070139.X
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开一种语音识别系统,包括一模数变换单元、一特征提取单元、一解码运算单元及一声学模型,用于接收语音输入信号并得到相匹配的识别结果,其中:该模数变换单元将该语音输入信号转换为一数字信号;该特征提取单元将该数字信号进行分帧处理,提取语音特征参数得输入语音特征矢量序列;该解码运算单元对该特征矢量序列进行解码运算得到识别结果。该声学模型为采用本发明压缩方法得到的高斯码本。本发明的语音识别系统,可在保证语音系统识别性能的前提下,提高系统的识别速度。
-
公开(公告)号:CN1773606A
公开(公告)日:2006-05-17
申请号:CN200410090801.8
申请日:2004-11-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于语音识别领域,具体的说,涉及一种基于混淆网络的语音解码方法,包括步骤:1)对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;3)在混淆网络上以后验概率最大为准则匹配搜索出最优结果。与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,有效的缩减了网络,提高了解码速率;同时本发明还克服了现有多遍解码系统中解码失误无法修复的缺点。
-
公开(公告)号:CN1773605A
公开(公告)日:2006-05-17
申请号:CN200410090802.2
申请日:2004-11-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种应用于语音识别系统的语音端点检测方法,包括如下步骤:1)对输入的语音数据进行分帧处理;2)对语音数据以帧为单位进行FFT运算,根据前N帧语音将整个语音频谱划分为信噪比高低不同的子带,计算出各子带的噪声门限;3)根据各子带的噪声门限对语音端点进行初步判别;4)根据共振峰值对语音端点进行精确判定。与现有技术相比,本发明的优点是:能够适用于各种不同自然环境的语音端点检测;能够适用于噪声较大时的语音端点检测;采用逐帧判别,且计算量小,可实际应用于各种实时语音识别系统中。
-
公开(公告)号:CN1201285C
公开(公告)日:2005-05-11
申请号:CN200310115044.0
申请日:2003-11-20
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/00
Abstract: 本发明公开了一种语音识别中的并行搜索方法,由多个线程对令牌扩展进行并行运算,各线程按索引单位分配得到各自的t-1时刻词典树的令牌资源,对于分配的t-1时刻的令牌资源,线程Ti对各状态的全局令牌链表中的令牌进行扩展运算,并将新产生的令牌链入目标状态中线程Ti对应的令牌链表中,在所有线程的扩展运算完成后,进行令牌资源的同步运算,本发明方法可在相当程度上实现多处理器系统中处理器间的计算负载平衡。且在并行搜索引擎中令牌扩展线程间的通信开销非常低。
-
-
-
-
-
-
-
-
-