-
公开(公告)号:CN111239686B
公开(公告)日:2021-12-21
申请号:CN202010099231.8
申请日:2020-02-18
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。
-
公开(公告)号:CN119964593A
公开(公告)日:2025-05-09
申请号:CN202510145356.2
申请日:2025-02-10
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L21/028 , G10L25/27
Abstract: 本申请提供了一种基于子带包络特征的语音分离后滤波方法及系统,该方法包括:设计m倍频程带通滤波器组,对分离后的估计声源信号和原始混合信号进行子带分解,获取其频带划分表示;对估计声源信号和原始混合信号的各子带,执行希尔伯特变换,构建解析信号,计算其瞬时幅度并通过低通滤波去除高频分量,获得相应的子带包络;计算初始掩蔽值,以设定下界阈值对初始掩蔽值进行限制,通过正弦函数对初始掩蔽值进行非线性映射,得到包络掩蔽系数;将包络掩蔽系数应用于估计声源的对应子带信号;对经掩蔽处理的各子带信号进行全频带重构,获得增强后的目标声源信号。本申请的优势在于:有效提升了复杂声学环境下语音分离系统的性能。
-
公开(公告)号:CN114337908B
公开(公告)日:2024-04-12
申请号:CN202210011028.X
申请日:2022-01-05
Applicant: 中国科学院声学研究所
Abstract: 本申请公开了一种目标语音信号的干扰信号生成方法及装置,方法包括:获取待干扰的目标语音信号;对目标语音信号进行分帧处理,获得至少一个语音帧;对其中的每个语音帧进行处理,包括对其进行第一处理、第二处理和/或第三处理,获得频域包络反转信号、时域反转信号和/或时域包络反转信号;根据频域包络反转信号、时域反转信号和/或时域包络反转信号以及与其分别对应的预设权重系数,确定目标语音信号的干扰信号。本申请通过构造三种与目标语音信号相关的频域包络反转信号、时域反转信号、时域包络反转信号,并根据构造的三种信号以及与其对应的预设权重系数,获得目标语音信号的干扰信号进一步提高了干扰信号对目标语音信号的干扰作用。
-
公开(公告)号:CN114337908A
公开(公告)日:2022-04-12
申请号:CN202210011028.X
申请日:2022-01-05
Applicant: 中国科学院声学研究所
Abstract: 本申请公开了一种目标语音信号的干扰信号生成方法及装置,方法包括:获取待干扰的目标语音信号;对目标语音信号进行分帧处理,获得至少一个语音帧;对其中的每个语音帧进行处理,包括对其进行第一处理、第二处理和/或第三处理,获得频域包络反转信号、时域反转信号和/或时域包络反转信号;根据频域包络反转信号、时域反转信号和/或时域包络反转信号以及与其分别对应的预设权重系数,确定目标语音信号的干扰信号。本申请通过构造三种与目标语音信号相关的频域包络反转信号、时域反转信号、时域包络反转信号,并根据构造的三种信号以及与其对应的预设权重系数,获得目标语音信号的干扰信号进一步提高了干扰信号对目标语音信号的干扰作用。
-
公开(公告)号:CN111239686A
公开(公告)日:2020-06-05
申请号:CN202010099231.8
申请日:2020-02-18
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。
-
-
-
-