一种基于信息传递的说话人聚类方法

    公开(公告)号:CN101452704A

    公开(公告)日:2009-06-10

    申请号:CN200710178363.4

    申请日:2007-11-29

    Inventor: 颜永红 吕萍 张翔

    Abstract: 本发明提供一种基于信息传递的说话人聚类方法,包括如下步骤:1)计算两两数据段之间的相似度s(i,k),其中k≠i;2)设定各数据段作为聚类中心的优先度s(k,k),其中k表示第k个数据段,将所有的a值a(i,k)初始化为零;3)根据两两数据段之间的a值和各数据段优先度,计算两两数据段之间的r值r(i,k);然后根据两两数据段之间的r值,再计算两两数据段之间的a值;4)将r值和a值合并,以该合并值决策聚类中心;5)重复执行步骤3)、4),直到找到稳定的聚类中心,结束聚类,统计聚类数目本发明初始时认为每一个数据段都是潜在的聚类中心,具有较强的鲁棒性。同时本发明只需要一次性计算每两段之间的距离,具有更快的运行速度。

    一种单音旋律曲线的匹配方法

    公开(公告)号:CN101447186A

    公开(公告)日:2009-06-03

    申请号:CN200710178220.3

    申请日:2007-11-28

    Abstract: 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。

    基于音素混淆的中英文双语语音识别方法

    公开(公告)号:CN101447184A

    公开(公告)日:2009-06-03

    申请号:CN200810110555.6

    申请日:2008-06-03

    Abstract: 本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。

    一种快速可在线应用的声道长度归整方法

    公开(公告)号:CN101447182A

    公开(公告)日:2009-06-03

    申请号:CN200810097981.0

    申请日:2008-05-21

    Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。

    一种基于数字信号处理的语音变声方法

    公开(公告)号:CN1248191C

    公开(公告)日:2006-03-29

    申请号:CN03137014.4

    申请日:2003-06-19

    Abstract: 本发明公开了一种基于数字信号处理的语音变声方法,包括步骤(1)选取需要变声的原始语音信号;(2)得到原始语音信号的基音周期长度;(3)根据基音周期长度定位整个原始语音信号的每一个基音周期的位置;(4)在原始语音信号中的基音周期之间删除/插入基音周期,得到缩短/伸长的语音信号;(5)将缩短/伸长的语音信号线性伸长/压缩至与原始语音信号一致的长度,得到变声后的语音信号。本发明是基于数字信号处理的语音变声方法,该方法简单实用,运算量很小,适于在DSP芯片上实时实现,变声的语音的自然度很高。而且变声后的语音的长度与原始语音长度一致,有利于实时传送变声后的语音信号。

    一种多通道双说话人分离方法及系统

    公开(公告)号:CN113870893B

    公开(公告)日:2024-09-03

    申请号:CN202111134595.6

    申请日:2021-09-27

    Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。

Patent Agency Ranking