-
公开(公告)号:CN101546554A
公开(公告)日:2009-09-30
申请号:CN200810102581.4
申请日:2008-03-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L11/00
Abstract: 本发明公开了一种汉语普通话中清擦音和塞擦音的客观测试方法,包括:接收输入语音;对输入语音进行切分;提取区别特征;根据评估模型进行打分;得到发音得分。通过应用本发明,采用更能反映发音本质的区别特征,对清擦音和塞擦音进行区分,可以得到更好的区分性能。
-
公开(公告)号:CN101546553A
公开(公告)日:2009-09-30
申请号:CN200810102580.X
申请日:2008-03-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L11/00
Abstract: 本发明公开了一种汉语普通话中平舌音和卷舌音的客观测试方法,包括:接收输入语音;对输入语音进行切分;提取区别特征;根据评估模型进行评估打分和得到发音得分。通过应用本发明,采用更能反映发音本质的区别特征,对平舌音和卷舌音进行区分,可以得到更好的区分性能。
-
公开(公告)号:CN101452704A
公开(公告)日:2009-06-10
申请号:CN200710178363.4
申请日:2007-11-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种基于信息传递的说话人聚类方法,包括如下步骤:1)计算两两数据段之间的相似度s(i,k),其中k≠i;2)设定各数据段作为聚类中心的优先度s(k,k),其中k表示第k个数据段,将所有的a值a(i,k)初始化为零;3)根据两两数据段之间的a值和各数据段优先度,计算两两数据段之间的r值r(i,k);然后根据两两数据段之间的r值,再计算两两数据段之间的a值;4)将r值和a值合并,以该合并值决策聚类中心;5)重复执行步骤3)、4),直到找到稳定的聚类中心,结束聚类,统计聚类数目本发明初始时认为每一个数据段都是潜在的聚类中心,具有较强的鲁棒性。同时本发明只需要一次性计算每两段之间的距离,具有更快的运行速度。
-
公开(公告)号:CN101447186A
公开(公告)日:2009-06-03
申请号:CN200710178220.3
申请日:2007-11-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。
-
公开(公告)号:CN101447184A
公开(公告)日:2009-06-03
申请号:CN200810110555.6
申请日:2008-06-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。
-
公开(公告)号:CN101447182A
公开(公告)日:2009-06-03
申请号:CN200810097981.0
申请日:2008-05-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。
-
公开(公告)号:CN100403828C
公开(公告)日:2008-07-16
申请号:CN200380101122.X
申请日:2003-10-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: H04M1/271 , G10L15/26 , G10L2015/027
Abstract: 本发明公开一种具有语音操作系统的便携式数字移动通讯设备及语音操作控制方法,在进行语音识别时是利用特征码本对语音的特征矢量序列进行量化编码,而在解码运算中对有效语音特征码字矢量序列的各个码字,是直接从概率表中查到其在搜索路径上的观察概率;采用本发明,可以在手机中实现全音节的语音识别,无需训练,并可实现汉字语音输入和全音节的语音提示,系统具有语义分析、对话管理和语言生成模块,可以处理复杂的对话过程并产生灵活的提示信息反馈给用户,本发明还可由用户进行语音命令和提示内容的定制。
-
公开(公告)号:CN1753083A
公开(公告)日:2006-03-29
申请号:CN200410078336.6
申请日:2004-09-24
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 在根据本发明的语音标记方法中,首先在语音注册阶段,采用由语音识别技术发展而成的语音标记算法,将用户注册时的语音转换成文本进行存储。这样,对于所有待识别的词汇,只需要建立一个识别词表的数据库。在进行识别时,对于用户的发音,按照通用的语音识别系统的流程来进行识别,即提取语音的特征,利用识别词表的信息建立识别语法,基于识别语法和声学模型,对于待识别语音的特征序列在整个候选空间中进行搜索匹配,寻找匹配概率最大的词作为识别结果。本发明还提供了相应的语音标记系统以及采用语音标记的语音识别方法和系统。通过本发明的语音标记方法和系统,能够显著提高语音识别系统的准确度、适应性和灵活性,降低系统所需的存储空间。
-
公开(公告)号:CN1248191C
公开(公告)日:2006-03-29
申请号:CN03137014.4
申请日:2003-06-19
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
IPC: G10L13/02
Abstract: 本发明公开了一种基于数字信号处理的语音变声方法,包括步骤(1)选取需要变声的原始语音信号;(2)得到原始语音信号的基音周期长度;(3)根据基音周期长度定位整个原始语音信号的每一个基音周期的位置;(4)在原始语音信号中的基音周期之间删除/插入基音周期,得到缩短/伸长的语音信号;(5)将缩短/伸长的语音信号线性伸长/压缩至与原始语音信号一致的长度,得到变声后的语音信号。本发明是基于数字信号处理的语音变声方法,该方法简单实用,运算量很小,适于在DSP芯片上实时实现,变声的语音的自然度很高。而且变声后的语音的长度与原始语音长度一致,有利于实时传送变声后的语音信号。
-
公开(公告)号:CN113870893B
公开(公告)日:2024-09-03
申请号:CN202111134595.6
申请日:2021-09-27
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。
-
-
-
-
-
-
-
-
-