-
公开(公告)号:CN106373589A
公开(公告)日:2017-02-01
申请号:CN201610824648.X
申请日:2016-09-14
Applicant: 东南大学
IPC: G10L21/0272 , G10L21/0308
CPC classification number: G10L21/0272 , G10L21/0308
Abstract: 本发明公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索,耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数,对混合语音中的多个声源进行初步定位,将初次定位的声源个数和各个声源的空间方位信息作为分离依据,实现基于空间方位信息的各个声源数据流的分离和重构;随后对重构后的语音信号重新估计声源方位,利用修正后的方位信息对混合语音进行再次分离;按照上述步骤重复迭代处理后,将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下,本发明提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法,显著提高了分离语音的感知质量。
-
公开(公告)号:CN106373589B
公开(公告)日:2019-07-26
申请号:CN201610824648.X
申请日:2016-09-14
Applicant: 东南大学
IPC: G10L21/0272 , G10L21/0308
Abstract: 本发明公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索,耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数,对混合语音中的多个声源进行初步定位,将初次定位的声源个数和各个声源的空间方位信息作为分离依据,实现基于空间方位信息的各个声源数据流的分离和重构;随后对重构后的语音信号重新估计声源方位,利用修正后的方位信息对混合语音进行再次分离;按照上述步骤重复迭代处理后,将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下,本发明提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法,显著提高了分离语音的感知质量。
-
公开(公告)号:CN104464750B
公开(公告)日:2017-07-07
申请号:CN201410579458.7
申请日:2014-10-24
Applicant: 东南大学
IPC: G10L21/0308 , G01S5/18
Abstract: 本发明公开了一种基于双耳声源定位的语音分离方法通过数据训练、多声源定位和根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音。本发明基于人耳的“鸡尾酒会效应”,模拟人耳的听觉特征,可以准确定位声源个数和声源方位,利用定位后的声源方位信息获取准确的混合矩阵,从而进行语音分离过程,其分离性能获得有效提升。
-
公开(公告)号:CN104900232A
公开(公告)日:2015-09-09
申请号:CN201510188364.1
申请日:2015-04-20
Applicant: 东南大学
IPC: G10L15/14 , G10L15/02 , G10L15/05 , G10L21/0216
Abstract: 本发明公开了一种基于双层GMM结构和VTS特征补偿的孤立词识别方法,包括训练阶段和识别阶段,训练阶段中通过对纯净环境下的语音特征提取,获得两个GMM训练模型和一个HMM训练模型。其中GMM模型分别为含有个数较少的高斯混合单元的GMM1模型和含有个数较多的高斯混合单元的GMM2模型。在矢量泰勒级数VTS特征补偿阶段的噪声估计过程,利用GMM1模型得到噪声的均值和方差,利用GMM2模型通过映射获得纯净特征参数,并与HMM模型匹配获得最终识别结果。本发明与基于单个GMM模型和VTS特征补偿的孤立词识别算法相比,在误识率基本不变的情况下,噪声均值和方差估计时间减少了90%,特征补偿整体用时减少了30%-50%,有效降低了基于VTS特征补偿孤立词识别算法的计算量。
-
公开(公告)号:CN102143101A
公开(公告)日:2011-08-03
申请号:CN201110097879.2
申请日:2011-04-19
Applicant: 东南大学
Abstract: 本发明公开了一种镜像扩展的频域加窗正交频分多址信道估计方法,其特征在于:该方法包括如下步骤:第一步,镜像扩展:对接收到的长度为M点的正交频分多址频域参考信号进行L点的镜像扩展;M是正交频分多址传输的带宽,也是参考信号在频域上的长度,L为扩展长度,具体取值取决于传输带宽大小;第二步,频域加窗:对得到的镜像扩展后的信道频域响应乘上窗,窗为一个长度为M+L点的参数可调的窗的L点左循环移位,其中的参数与信噪比相关;M是正交频分多址传输的带宽,也是参考信号在频域上的长度,L为扩展长度,具体取值取决于传输带宽大小。本发明能够提高估计误差性能,并能在多个发送端的参考信号通过不同循环移位复用情况下对抗码分复用干扰。
-
公开(公告)号:CN101511047A
公开(公告)日:2009-08-19
申请号:CN200910025970.6
申请日:2009-03-16
Applicant: 东南大学
Abstract: 本发明公布了一种双声道立体声分别基于音箱与耳机的三维音效处理方法,本发明所述方法直接将左、右声道信号分别通过N(N为自然数)个不同的延迟器进行延迟与衰减处理将最终得到的反射信号作为环绕声信息,然后分别针对音箱与耳机两种不同的播放设备,对不同通路信号进行相应的滤波、加权求和等处理,最终获得具有三维音效的双声道信号。本发明的三维音效处理方法设计简单,经本方法处理后的声信号具有较好的空间感与包围感。
-
公开(公告)号:CN104464750A
公开(公告)日:2015-03-25
申请号:CN201410579458.7
申请日:2014-10-24
Applicant: 东南大学
IPC: G10L21/0308 , G01S5/18
Abstract: 本发明公开了一种基于双耳声源定位的语音分离方法通过数据训练、多声源定位和根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音。本发明基于人耳的“鸡尾酒会效应”,模拟人耳的听觉特征,可以准确定位声源个数和声源方位,利用定位后的声源方位信息获取准确的混合矩阵,从而进行语音分离过程,其分离性能获得有效提升。
-
公开(公告)号:CN102565759A
公开(公告)日:2012-07-11
申请号:CN201110448129.5
申请日:2011-12-29
Applicant: 东南大学
IPC: G01S5/18
Abstract: 一种基于子带信噪比估计的双耳声源定位方法,为一种改进的声源定位方法,将各方位耳间时间差ITD(Interaural Time Difference)的均值作为声源方位的定位特征线索,建立方位映射模型;实际声源定位时,输入为双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,在各子带内进行信噪比估计,根据子带信噪比,选择相应子带的功率谱计算各帧的ITD参数,根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配,基于欧氏距离测度,输出方位。本发明方法提高了噪声环境下声源定位的性能。
-
公开(公告)号:CN102438189A
公开(公告)日:2012-05-02
申请号:CN201110252923.2
申请日:2011-08-30
Applicant: 东南大学
IPC: H04R1/20
Abstract: 一种基于双通路声信号的声源定位方法是一种改进的声源定位方法,本法将各频带耳间时间差ITD和耳间强度差IID的均值和方差作为声源方位的定位特征线索,建立方位映射模型。在实际声源定位时,输入为双通路声信号,输入声信号先经过类似人耳听觉滤波器的Gammatone滤波器组进行频带划分、滤波处理后,输入特征提取模块,提取出各子带的ITD、IID定位信息,基于高斯混合模型GMM整合各子带的ITD、IID定位线索,得到ITD、IID在各方位角相应频带上的似然值,作为方位估计的判决值。该系统具有较高的声源定位性能。
-
公开(公告)号:CN101511047B
公开(公告)日:2010-10-27
申请号:CN200910025970.6
申请日:2009-03-16
Applicant: 东南大学
Abstract: 本发明公布了一种双声道立体声分别基于音箱与耳机的三维音效处理方法,本发明所述方法直接将左、右声道信号分别通过N(N为自然数)个不同的延迟器进行延迟与衰减处理将最终得到的反射信号作为环绕声信息,然后分别针对音箱与耳机两种不同的播放设备,对不同通路信号进行相应的滤波、加权求和等处理,最终获得具有三维音效的双声道信号。本发明的三维音效处理方法设计简单,经本方法处理后的声信号具有较好的空间感与包围感。
-
-
-
-
-
-
-
-
-