-
公开(公告)号:CN105261358A
公开(公告)日:2016-01-20
申请号:CN201410342840.6
申请日:2014-07-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种用于语音识别的n元文法模型构造方法及语音识别系统,所述方法包含:步骤101)通过神经网络语言模型训练得到词矢量,再对词矢量进行分类以及多层筛选,最终得到词类;步骤102)利用直接统计词频的方法扩充人工标注,即同类词替换时,直接统计与原句有变化的1至n元文法组合,进而得到扩充部分的n元文法模型;步骤103)人工标注生成初步的n元文法模型,再与扩充部分的n元文法模型进行模型插值,得到最终的n元文法模型。所述步骤101)进一步包含:步骤101-1)输入标注及训练文本;步骤101-2)通过神经网络语言模型训练得到词典中的词的相应词矢量;步骤101-3)用K均值法对词矢量分类;步骤101-4)对分类结果进行多层筛选,最终得到词类。
-
公开(公告)号:CN103117060B
公开(公告)日:2015-10-28
申请号:CN201310020010.7
申请日:2013-01-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种用于语音识别的声学模型的建模方法及语音识别系统。所述方法包括:训练一个初始模型,建模单元为经音素决策树聚类后的三音子状态,所述模型还给出状态转移概率;基于初始模型对训练数据语音特征的三音子状态进行强制对齐,获得其帧级别的状态信息;对深层神经网络进行预训练以得到各隐含层初始权重;基于所获得的帧级状态信息采用误差反向传播算法对已初始化的网络进行训练,更新权重。本发明采用上下文相关三音子状态做为建模单元,基于深层神经网络建模,使用受限波尔兹曼算法初始化所述网络各隐含层的权重,所述权重在后续还可以借助反向误差传播算法被更新,能够有效地缓解所述网络预训练时容易陷入局部极值的风险,并进一步提高声学模型的建模精度。
-
公开(公告)号:CN103021407B
公开(公告)日:2015-07-08
申请号:CN201210551676.0
申请日:2012-12-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明实施例涉及韩语语音识别方法及系统。所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
-
公开(公告)号:CN104703111A
公开(公告)日:2015-06-10
申请号:CN201310661781.4
申请日:2013-12-09
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种房间混响合成方法,通过利用房间混响镜像合成法合成早期反射,并以合成的早期反射为输入,在每个临界频带内利用参数方法计算出早期反射随时间衰减的曲线,并将每个频带内的曲线合并为一个所有频带范围内的曲面作为早期反射的EDR,利用该早期反射的EDR通过频域逼近方法求出逼近滤波器的系数作为FDN参数,通过反馈延时网络法对该FDN参数进行后期混响合成,进而合成房间混响,使本发明房间混响合成的方法具有了基于物理特性合成方法能够准确合成早期反射和基于感知合成方法的计算速度快的优点。
-
公开(公告)号:CN104575495A
公开(公告)日:2015-04-29
申请号:CN201310495417.5
申请日:2013-10-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出了一种基于总变化量因子的语种识别方法及系统,所述方法包含:步骤101)提取某语种若干段训练语音的声学特征,并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,其中每一句话的总变化量因子是一个矢量;步骤102)利用支持向量机训练一组一对一和一对多模型,然后选择若干个总变量因子对所述一对一和一对多模型打分,依据得分矩阵训练一个高斯后端分类器模型;步骤103)输入测试语音,并提取测试语音的声学特征,然后根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,再对102)中的一对多和一对一模型打分,最后将得分向量输入所述的高斯后端分类器模型进行判决并输出识别结果。
-
公开(公告)号:CN104571485A
公开(公告)日:2015-04-29
申请号:CN201310517226.4
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出了一种基于Java Map的人机语音交互系统及方法,所述系统包含:语音识别模块,用于接收用户输入的语音信息,并将语音信息识别为文本数据;口语理解模块,用于对文本数据进行语义挖掘,并且转换为机器能够识别的形式,其中语义挖掘中基于Java Map的上下文关键语义要素的存储与利用策略将会对用户输入的上下文信息进行整合,且所述语义挖掘为将识别的文本进行语义关键要素的抽取;对话管理模块,用于控制人机交互的对话流程;语言生成模块,用于将零碎的答案进行整合,得到通顺、符合人的逻辑语言表示形式的文本;语音合成模块,用于将生成的答案文本转化为语音信息,并将语音信息播报给用户。
-
公开(公告)号:CN103077720B
公开(公告)日:2015-02-11
申请号:CN201210555152.9
申请日:2012-12-19
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/12
Abstract: 本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。
-
公开(公告)号:CN103945308A
公开(公告)日:2014-07-23
申请号:CN201310024909.6
申请日:2013-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: H04R5/00
Abstract: 本发明提供了一种基于波场合成和分析的声重放方法及系统,所述方法包含:分别利用波场分析记录录音房间的第一声场和听音房间的第二声场;采用波域变换公式对测量到的第一声场和第二声场进行空域分解,得到第一波域分解后的信号和第二波域分解后的信号;将第一波域分解后的信号传递至声场重建一端,采用波场合成初步重建录音房间所录制的声场;依据第二波域分解后的信号采用单通道逆滤波补偿听音房间反射信号对初步录音房间所录制的声场的影响,得到最终重建的录音房间所录制的声场。本发明具有宽阔的听音区域并不局限于某几个听音位置,通过波域变换将多输入多输出系统解耦合为若干单输入单输出系统,进而降低了计算复杂度。
-
公开(公告)号:CN102800322B
公开(公告)日:2014-03-26
申请号:CN201110141137.5
申请日:2011-05-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0232 , G10L25/78
Abstract: 本发明涉及一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,最终推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
-
公开(公告)号:CN103118323A
公开(公告)日:2013-05-22
申请号:CN201210584100.4
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 上海中科高等研究院 , 北京中科信利技术有限公司
IPC: H04S7/00
Abstract: 本发明实施例提供一种基于波场合成WFS系统进行房间补偿的方法和系统。该方法包括:利用圆形传声器阵列测量圆环上的各点的声压和振速;利用圆环上各点的声压和振速,计算入射波场在角度方向上的平面波分解系数;利用入射波场在角度方向上的平面波分解系数作为反射波场,构建房间脉冲响应矩阵;基于房间脉冲响应矩阵计算补偿滤波器矩阵,以便在由多个扬声器播放之前经由补偿滤波器矩阵预滤波。与传统的多通道补偿算法相比,本发明实施例的补偿效果并不局限于某几个测量点,而是在整个听音区域内都是有效的。
-
-
-
-
-
-
-
-
-