一种应用于多声源环境的分频定位方法

    公开(公告)号:CN108375763B

    公开(公告)日:2021-08-20

    申请号:CN201810004440.2

    申请日:2018-01-03

    Applicant: 北京大学

    Abstract: 本发明公开了一种应用于多声源环境的分频定位方法。本方法为:利用麦克风阵列的传递函数,得到空间中各个方向、不同频段的方向矢量;对麦克风阵列记录时刻n时的空间信号进行分带处理,计算每一频段fi对应的协方差矩阵;对每一扫描频段对应的协方差矩阵进行特征值分解,得到一组相互正交的特征值和与之对应的特征向量;将最大特征值对应的特征向量作为信号空间,其余特征向量对应噪声空间;根据信号空间对应的特征值和噪声空间的噪声方差,估计每一扫描频段的信号能量;然后使用频段fi对应的噪声空间特征向量和方向矢量,计算频段fi的空间谱;用各扫描频段的信号能量为对应空间谱的权重,对各扫描频段的空间谱进行加权,得到定位结果。

    一种基于神经网络的声源定位方法

    公开(公告)号:CN108318862B

    公开(公告)日:2021-08-20

    申请号:CN201711428934.5

    申请日:2017-12-26

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于神经网络的声源定位方法。本发明对所有传输路径的传递函数,即传递特性进行建模,通过深度学习的方式从大量数据中学习到声音信号在传播过程中由于散射体的存在或环境等原因造成的相位和幅度变化规律,通过神经网络可以恢复到原始的相位和幅度,最后结合时间差和幅度差两个定位线索进行声源定位。本发明利用了已知的时延信息,再利用深度神经网络恢复原始的相位和幅度,并有效地结合了时间信息和幅度信息进行定位,显著提高了抗噪性能。

    一种基于波束成形的多说话者语音分离方法及系统

    公开(公告)号:CN109830245B

    公开(公告)日:2021-03-12

    申请号:CN201910001150.7

    申请日:2019-01-02

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于波束成形的多说话者语音分离方法及系统。本方法为:采集混合语音信号,得到多通道的多说话者混合语音信号并对其进行扫描,得到MUSIC能量谱;从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;对S个波束分别进行增强,得到S个方向上的混合语音;对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱并将其分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

    一种基于说话人嵌入空间的竞争说话人数量估计方法及系统

    公开(公告)号:CN111179959A

    公开(公告)日:2020-05-19

    申请号:CN202010009945.5

    申请日:2020-01-06

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于说话人嵌入空间的竞争说话人数量估计方法及系统。本方法为:1)利用麦克风阵列采集多说话人的混合多通道信号;2)提取所述混合多通道信号的多通道幅度信息和多通道相位信息;3)利用深度神经网络分别估计所述多通道幅度信息的嵌入空间和多通道相位信息的嵌入空间;4)利用全连接层将两所述嵌入空间映射到说话人嵌入空间;其中,所述多通道幅度信息的嵌入空间、多通道相位信息的嵌入空间和说话人嵌入空间均为相同维度的嵌入空间;5)估计所述说话人嵌入空间中的嵌入向量的平均协方差矩阵;6)对所述平均协方差矩阵做特征值分解,将得到的秩的个数判定为说话人的数量。本发明能够实现更精确的竞争说话人数量估计。

    一种应用于多声源环境的分频定位方法

    公开(公告)号:CN108375763A

    公开(公告)日:2018-08-07

    申请号:CN201810004440.2

    申请日:2018-01-03

    Applicant: 北京大学

    CPC classification number: G01S11/14

    Abstract: 本发明公开了一种应用于多声源环境的分频定位方法。本方法为:利用麦克风阵列的传递函数,得到空间中各个方向、不同频段的方向矢量;对麦克风阵列记录时刻n时的空间信号进行分带处理,计算每一频段fi对应的协方差矩阵;对每一扫描频段对应的协方差矩阵进行特征值分解,得到一组相互正交的特征值和与之对应的特征向量;将最大特征值对应的特征向量作为信号空间,其余特征向量对应噪声空间;根据信号空间对应的特征值和噪声空间的噪声方差,估计每一扫描频段的信号能量;然后使用频段fi对应的噪声空间特征向量和方向矢量,计算频段fi的空间谱;用各扫描频段的信号能量为对应空间谱的权重,对各扫描频段的空间谱进行加权,得到定位结果。

    一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法

    公开(公告)号:CN107945811A

    公开(公告)日:2018-04-20

    申请号:CN201710992311.4

    申请日:2017-10-23

    Applicant: 北京大学

    CPC classification number: G10L19/02 G10L19/24 G10L21/038

    Abstract: 本发明公开了一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法。本发明的生成式对抗网络训练方法为:对音频信号进行瞬态信号检测;然后根据检测结果分别对其进行MDCT变换,将得到的频谱作为真数据;对频谱进行分带,并计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络。本发明训练的网络易收敛。

    一种基于正交解相关技术的参数立体声编码、解码方法

    公开(公告)号:CN103700372B

    公开(公告)日:2016-10-05

    申请号:CN201310745761.5

    申请日:2013-12-30

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于正交解相关技术的参数立体声编码、解码方法。本编码方法:1)将输入的左声道、右声道时域信号分别变换到复频域,得到两复频域信号L和R;2)对L和R输出为一个下混信号M;3)利用L和R估算出边信息,并对所述边信息进行融合量化;所述边信息包括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD;4)对M时域反变换并编码输出;将边信息压缩编码输出。解码方法:将输入的时域下混信号变换到复频域输出信号M;对输入的边信息进行解码;根据RD求解一与M幅值相等且正交的输出信号D;根据ICC、IID计算旋转矩阵H;利用H、M及D得到复频域信号L和R变化到时域输出。本发明大大提高了解码速度。

    一种电刺激诱发脑干频率追随反应装置及验证方法

    公开(公告)号:CN103800005B

    公开(公告)日:2016-03-02

    申请号:CN201410053448.X

    申请日:2014-02-17

    Applicant: 北京大学

    Abstract: 本发明公开了一种电刺激诱发脑干频率追随反应装置及验证方法。本发明包括一诱发电位记录仪,其触发信号输出端经一信号转换器将输入的单路触发信号转换为两路信号控制发生器的通道1、2,通道1、2中的电刺激信号极性相反;通道1、2经一电刺激信号隔离器连接到一刺激电极;刺激电极的正极用于放置到使用者的圆窗龛,负极用于与该使用者骨性外耳道皮下接触;诱发电位记录仪的正极用于放置在该使用者双耳颅顶连线的中心位置,诱发电位记录仪的负极用于与该使用者的对侧乳突皮下接触,诱发电位记录仪的参考电极用于与该使用者的鼻尖皮下接触;诱发电位记录仪与一信号处理模块连接。本发明对于听觉外周损伤的动物,亦可以成功诱发其频率追随反应。

    一种脑-机接口视觉刺激方法及信号识别方法

    公开(公告)号:CN103092340B

    公开(公告)日:2016-03-02

    申请号:CN201210575525.9

    申请日:2012-12-26

    Applicant: 北京大学

    Abstract: 本发明公开了一种脑-机接口视觉刺激方法及信号识别方法。本发明的视觉刺激方法为将待显示图像以设定频率的正弦调制方式进行调制显示出来;调制的属性包括:亮度、大小、形状、翻转角度。信号识别方法为:1)将若干不同图像按照正弦调制方式以不同闪烁频率同时显示,并采集被测试者的脑电信号;2)对脑电信号进行特征提取和判决,初步确定该被测试者注视的图像;3)打乱显示图像的闪烁频率,采集脑电信号并确定该被测试者注视的图像,如果此次确定的图像与步骤2相同,则将该图像作为最终确定的识别信息输出;如果不同,则判定该被测试者没有注视该视觉刺激单元显示的任何一幅图像。本发明可大大缓解眼疲劳,有效地提高脑电信号识别的准确性。

    一种稳态视觉诱发电位脑—机接口信号识别方法

    公开(公告)号:CN103019383B

    公开(公告)日:2016-01-13

    申请号:CN201210551943.4

    申请日:2012-12-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种稳态视觉诱发电位脑—机接口信号识别方法。本方法为:1)将若干不同图片以不同闪烁频率通过一视觉刺激单元同时显示,并采集被测试者注视该视觉刺激单元的脑电信号;2)数据处理单元对脑电信号进行噪声估计和降噪处理,然后进行特征提取和判决,初步确定该被测试者注视的图片;3)打乱显示图片的闪烁频率,采集脑电信号;然后对此次采集的脑电信号进行噪声估计和降噪处理,然后对处理后的脑电信号进行特征提取和判决,确定该被测试者注视的图片,如果此次确定的图片与步骤2相同,则将该图片作为最终确定的识别信息输出;如果不同,则判定该被测试者没有注视该视觉刺激单元显示的任何一幅图片。本发明可有效地提高脑电信号识别的准确性。

Patent Agency Ranking