Patent search ap:("中国科学院声学研究所") AND inv:"杨弋" Page 1

1.

发明授权
一种语音波达方向估计方法及系统有权

公开(公告)号：CN115421099B

公开(公告)日：2025-01-17

申请号：CN202211044030.3

申请日：2022-08-29

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 杨弋 , 颜永红

IPC: G01S3/802 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种语音波达方向估计方法，包括：获取远场环境下混合语音音频；对混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号；将频谱信号输入声源位置估计神经网络模型，由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计；对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到目标说话人的句子级别的笛卡尔坐标估计；对目标说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到目标说话人的波达方向估计。本发明提供一种语音波达方向估计方法及系统，能够克服多说话人远场环境下，非语音帧与干扰说话人帧对波达方向估计模型的效果的影响，实现低延时的波达方向估计。

2.

发明公开
一种语音波达方向估计方法及系统有权

公开(公告)号：CN115421099A

公开(公告)日：2022-12-02

申请号：CN202211044030.3

申请日：2022-08-29

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 杨弋 , 颜永红

IPC: G01S3/802 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种语音波达方向估计方法，包括：获取远场环境下混合语音音频；对混合语音音频进行分帧、加窗和傅里叶变换处理，得到每帧音频的频谱信号；将频谱信号输入声源位置估计神经网络模型，由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计；对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作，得到目标说话人的句子级别的笛卡尔坐标估计；对目标说话人的句子级别的笛卡尔坐标估计进行反正切运算，得到目标说话人的波达方向估计。本发明提供一种语音波达方向估计方法及系统，能够克服多说话人远场环境下，非语音帧与干扰说话人帧对波达方向估计模型的效果的影响，实现低延时的波达方向估计。

3.

发明公开
一种多通道双说话人分离方法及系统有权

公开(公告)号：CN113870893A

公开(公告)日：2021-12-31

申请号：CN202111134595.6

申请日：2021-09-27

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 杨弋 , 陈航艇 , 颜永红

IPC: G10L21/0272 , G10L25/27

Abstract: 本申请涉及一种多通道双说话人分离方法及系统，其中所述方法包括：对混合语音音频进行处理，得到每帧音频的频谱；根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重；根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差；根据所述估计的帧级别笛卡尔坐标和对应权重，得到所述混合语音音频中目标说话人的笛卡尔坐标估计；根据所述目标说话人的笛卡尔坐标得到第一角度特征；根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽；基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频，得到所述至少两个说话人的分离语音。

4.

发明授权
一种多通道双说话人分离方法及系统有权

公开(公告)号：CN113870893B

公开(公告)日：2024-09-03

申请号：CN202111134595.6

申请日：2021-09-27

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 杨弋 , 陈航艇 , 颜永红

IPC: G10L21/0272 , G10L25/27

Abstract: 本申请涉及一种多通道双说话人分离方法及系统，其中所述方法包括：对混合语音音频进行处理，得到每帧音频的频谱；根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重；根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差；根据所述估计的帧级别笛卡尔坐标和对应权重，得到所述混合语音音频中目标说话人的笛卡尔坐标估计；根据所述目标说话人的笛卡尔坐标得到第一角度特征；根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽；基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频，得到所述至少两个说话人的分离语音。

Patent Agency Ranking