-
公开(公告)号:CN109448751B
公开(公告)日:2021-03-23
申请号:CN201811646317.7
申请日:2018-12-29
Applicant: 中国科学院声学研究所
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于深度学习的双耳语音增强方法,包括:对包含待增强目标语音信号的左/右通道带噪语音信号分别进行处理得到左/右频域信号,并对其幅值进行组合得到单通道复数特征,利用左/右通道的频域信号和对应的目标频域信号理论值分别计算出对应的目标语音理想复数掩蔽,将其组合构成目标语音单通道复数掩蔽理论值,并结合单通道复数特征对复数前馈神经网络进行训练得到双耳语音增强模型,利用模型输出的目标语音单通道复数掩蔽估计值分别处理左/右通道带噪语音信号得到左/右通道频域信号,最后得到对应的目标语音时域信号。本方法可以抑制噪声干扰并保持目标声源的空间信息。充分利用深度神经网络的泛化能力,达到双耳语音的增强。
-
公开(公告)号:CN107968984B
公开(公告)日:2019-08-20
申请号:CN201610916256.6
申请日:2016-10-20
Applicant: 中国科学院声学研究所 , 北京三星通信技术研究有限公司
Abstract: 本发明公开了一种5‑2通道音频转换优化方法,所述方法包括:步骤1)将五通道音频下降混合到两通道;步骤2)在频域上将五通道音频以及两通道音频的声场进行归一化映射,得到两者声场的方向向量表示;步骤3)利用归一化之后两个方向向量的差值对两通道音频的幅度和相角进行校正;步骤4)将校正之后的双通道信号的幅度和相角重新组合形成每个频带内的复数值,然后再转换成时域信号,得到处理后两通道音频。通过本发明的方法得到的双声道的声场更接近五通道声场,从而保持原有的良好空间听觉感受。
-
公开(公告)号:CN104703111B
公开(公告)日:2016-09-28
申请号:CN201310661781.4
申请日:2013-12-09
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种房间混响合成方法,通过利用房间混响镜像合成法合成早期反射,并以合成的早期反射为输入,在每个临界频带内利用参数方法计算出早期反射随时间衰减的曲线,并将每个频带内的曲线合并为一个所有频带范围内的曲面作为早期反射的EDR,利用该早期反射的EDR通过频域逼近方法求出逼近滤波器的系数作为FDN参数,通过反馈延时网络法对该FDN参数进行后期混响合成,进而合成房间混响,使本发明房间混响合成的方法具有了基于物理特性合成方法能够准确合成早期反射和基于感知合成方法的计算速度快的优点。
-
公开(公告)号:CN109448751A
公开(公告)日:2019-03-08
申请号:CN201811646317.7
申请日:2018-12-29
Applicant: 中国科学院声学研究所
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于深度学习的双耳语音增强方法,包括:对包含待增强目标语音信号的左/右通道带噪语音信号分别进行处理得到左/右频域信号,并对其幅值进行组合得到单通道复数特征,利用左/右通道的频域信号和对应的目标频域信号理论值分别计算出对应的目标语音理想复数掩蔽,将其组合构成目标语音单通道复数掩蔽理论值,并结合单通道复数特征对复数前馈神经网络进行训练得到双耳语音增强模型,利用模型输出的目标语音单通道复数掩蔽估计值分别处理左/右通道带噪语音信号得到左/右通道频域信号,最后得到对应的目标语音时域信号。本方法可以抑制噪声干扰并保持目标声源的空间信息。充分利用深度神经网络的泛化能力,达到双耳语音的增强。
-
公开(公告)号:CN111239686B
公开(公告)日:2021-12-21
申请号:CN202010099231.8
申请日:2020-02-18
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。
-
公开(公告)号:CN106559722B
公开(公告)日:2018-12-04
申请号:CN201510622801.6
申请日:2015-09-25
Applicant: 中国科学院声学研究所
IPC: H04R1/22
Abstract: 本发明涉及一种基于人耳听觉特性的音频重放系统均衡方法,包括:根据人耳的听觉特性决定均衡滤波器的更新步长;其中,在人耳比较敏感的低频部分,均衡滤波器的更新步长取值较小;在高频部分,均衡滤波器的更新步长较大;测定音频重放系统的频率响应传递函数P(z);计算均衡滤波器的传递函数H(z);将均衡滤波器的传递函数H(z)应用于音频重放系统。
-
公开(公告)号:CN111239686A
公开(公告)日:2020-06-05
申请号:CN202010099231.8
申请日:2020-02-18
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。
-
公开(公告)号:CN107968984A
公开(公告)日:2018-04-27
申请号:CN201610916256.6
申请日:2016-10-20
Applicant: 中国科学院声学研究所 , 北京三星通信技术研究有限公司
Abstract: 本发明公开了一种5-2通道音频转换优化方法,所述方法包括:步骤1)将五通道音频下降混合到两通道;步骤2)在频域上将五通道音频以及两通道音频的声场进行归一化映射,得到两者声场的方向向量表示;步骤3)利用归一化之后两个方向向量的差值对两通道音频的幅度和相角进行校正;步骤4)将校正之后的双通道信号的幅度和相角重新组合形成每个频带内的复数值,然后再转换成时域信号,得到处理后两通道音频。通过本发明的方法得到的双声道的声场更接近五通道声场,从而保持原有的良好空间听觉感受。
-
公开(公告)号:CN105792075B
公开(公告)日:2017-10-03
申请号:CN201410817839.4
申请日:2014-12-24
Applicant: 中国科学院声学研究所
IPC: H04R5/02
Abstract: 本发明提供了一种串声消除滤波器的生成方法,所述方法包括:步骤101)将线性扬声器阵列中的所有扬声器进行配对组合;步骤102)利用离散傅里叶变换将声音信号从时域转换到频域上,频点个数为M;步骤103)选定M个频率对应的M个最优扬声器组;步骤104)根据M个频率对应的M个最优扬声器组,采用规则化方法生成串声消除滤波器。基于上述方法生成的串声消除滤波器,本发明还提供了一种三维声音重放方法,所述方法包括:将听者的双耳声信号通过离散傅里叶变换从时域转换到频域;将频域信号输入到所述步骤104)中的串声消除滤波器和线性扬声器阵列后,传入听者的双耳,实现三维声音重放。
-
公开(公告)号:CN104703111A
公开(公告)日:2015-06-10
申请号:CN201310661781.4
申请日:2013-12-09
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种房间混响合成方法,通过利用房间混响镜像合成法合成早期反射,并以合成的早期反射为输入,在每个临界频带内利用参数方法计算出早期反射随时间衰减的曲线,并将每个频带内的曲线合并为一个所有频带范围内的曲面作为早期反射的EDR,利用该早期反射的EDR通过频域逼近方法求出逼近滤波器的系数作为FDN参数,通过反馈延时网络法对该FDN参数进行后期混响合成,进而合成房间混响,使本发明房间混响合成的方法具有了基于物理特性合成方法能够准确合成早期反射和基于感知合成方法的计算速度快的优点。
-
-
-
-
-
-
-
-
-