-
公开(公告)号:CN106297773A
公开(公告)日:2017-01-04
申请号:CN201510290592.X
申请日:2015-05-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明涉及一种神经网络声学模型训练方法,所述方法具体包含:步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。
-
公开(公告)号:CN105403860A
公开(公告)日:2016-03-16
申请号:CN201410451825.5
申请日:2014-08-19
Applicant: 中国科学院声学研究所
IPC: G01S5/20
Abstract: 本发明涉及一种基于支配相关的多稀疏声源定位方法,包括:将通过麦克风阵列接收的声源信号转化成数字声音信号;提取每个麦克风的数字声音信号的频谱;利用相邻时间相同频点上所有麦克风的数字声音信号的频谱计算每个频点上的空间相关矩阵;提取空间相关矩阵的主特征向量;确定每个频点上所有麦克风对的时间延迟集合;采用迭代的方法,计算每个频点上处于支配地位的声源入射方向的方位角;对所有频点上的处于支配地位声源入射方向的方位角进行统计分析,确定最终的声源入射方向和声源个数。该方法考虑了声学鲁棒性,适用于多稀疏声源的实时定位。
-
公开(公告)号:CN104575497A
公开(公告)日:2015-04-29
申请号:CN201310517149.2
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/183
Abstract: 本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。
-
公开(公告)号:CN103065632B
公开(公告)日:2014-10-08
申请号:CN201210560599.5
申请日:2012-12-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明实施例涉及一种用于维吾尔语语音识别的词典单元的选择方法及系统。方法包括:为待识别的语音收集/准备相应的文本语料;从文本语料中抽取不同的词语;将所述不同词语输入形态分析器,分析成功时获得相应的词语的分解结果,分析失败时对所述词语进行基于削尾算法的词语分解,从而获得分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分;将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。本发明实施例根据维吾尔语形态变化的规则,将维吾尔语词语分解为词干和附加成分,然后选择词干和附件成分作为识别单元,从而缓解了识别系统集外词过多的问题,提高了系统的识别率。
-
公开(公告)号:CN103885949A
公开(公告)日:2014-06-25
申请号:CN201210555192.3
申请日:2012-12-19
Applicant: 中国科学院声学研究所
IPC: G06F17/30
CPC classification number: G06F17/30746
Abstract: 本发明涉及一种基于歌词的歌曲检索系统,包括:语音识别引擎,用于将用户输入的原始语音数据转化为文本识别结果;检索关键词选取模块,用于将文本识别结果中的部分词选出作为检索关键词;歌词定位模块,用于根据关键词在歌词库中定位候选歌曲的位置,得到候选定位点;以及候选歌曲精确匹配模块,用于在所述候选定位点中选出最佳的N个歌曲并将其返回给用户。本发明还提供了一种相应的基于歌词的歌曲检索方法。本发明能够通过用户说出的一两句歌词来检索到他想要的歌曲,拓展了用户检索歌曲的模式,满足用户多样性检索的需求。本发明的歌词输入方式便捷,在一些打字不方便的设备使用优势更加明显。并且,本发明识别正确率高,识别速度快。
-
公开(公告)号:CN101447182B
公开(公告)日:2011-11-09
申请号:CN200810097981.0
申请日:2008-05-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。
-
公开(公告)号:CN101123648B
公开(公告)日:2010-05-12
申请号:CN200610089253.6
申请日:2006-08-11
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: H04M3/493
Abstract: 本发明涉及一种电话语音识别中的自适应方法,包括,预处理过程和自适应更新过程;所述预处理过程是根据采集的多个说话人样本数据的性别、口音、年龄特征形成一个决策树,该决策树的每个叶节点中记录一个语音类的高斯混合模型、隐马尔科夫声学模型以及用于目标语音特征参数与声学模型相互匹配的变换矩阵;所述自适应更新过程包括:1)对输入的目标语音进行分类,将目标语音归入一个叶节点或建立一个新的叶节点;2)更新目标语音所在叶节点上的变换矩阵;3)根据变换矩阵更新目标语音的特征参数或/和更新该目标语音所在叶节点上的隐马尔科夫声学模型。本发明的优点是:大大节省了存储空间,加快了计算速度,特别适用于电话语音识别系统。
-
公开(公告)号:CN1703923A
公开(公告)日:2005-11-30
申请号:CN200380101122.X
申请日:2003-10-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: H04M1/271 , G10L15/26 , G10L2015/027
Abstract: 本发明公开一种具有语音操作系统的便携式数字移动通讯设备及语音操作控制方法,在进行语音识别时是利用特征码本对语音的特征矢量序列进行量化编码,而在解码运算中对有效语音特征码字矢量序列的各个码字,是直接从概率表中查到其在搜索路径上的观察概率;采用本发明,可以在手机中实现全音节的语音识别,无需训练,并可实现汉字语音输入和全音节的语音提示,系统具有语义分析、对话管理和语言生成模块,可以处理复杂的对话过程并产生灵活的提示信息反馈给用户,本发明还可由用户进行语音命令和提示内容的定制。
-
公开(公告)号:CN1491018A
公开(公告)日:2004-04-21
申请号:CN02148685.9
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种对话交互前端的回声消除和语音检测方法,包括下述步骤:利用含有录音和放音通道的电话卡作为通信机对话交互前端的声音接口卡,及利用电话卡的两个通道进行回声消除步骤得到干净的语音残差数据;然后将语音残差数据进行语音信号自适应检测步骤,判断语音残差数据的类型;及当语音残差数据判断为语音时,则停止进行回声消除步骤并关闭放音通道;本发明利用普通电话卡的录音和放音通道,结合语音增强、语音识别和信号处理手段,实现回声的实时消除及语音的实时检测,以实现对话交互功能。
-
公开(公告)号:CN109427328B
公开(公告)日:2023-04-28
申请号:CN201710750635.7
申请日:2017-08-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06 , G10L15/14 , G10L21/0208 , G10L25/30 , G10L25/45 , G10L21/0216
Abstract: 本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。
-
-
-
-
-
-
-
-
-