-
公开(公告)号:CN112731289B
公开(公告)日:2024-05-07
申请号:CN202011456914.0
申请日:2020-12-10
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开了一种基于加权模板匹配的双耳声源定位方法和装置。在训练阶段,首先从训练数据中提取不同方向的双耳互相关函数和双耳强度差,为提取的各个方向的双耳互相关函数和双耳强度差建立模板;然后通过梯度下降法训练不同方向、不同频带的权重值。在线定位阶段,同样首先对信号提取特征,接着在不同特征和不同频带上将所提取的特征与各个方向的模板进行相似度匹配,最后通过加权融合不同特征不同频带的相似度,得到最终的声源方向相似度,取最大相似度方向为声源方向。实验在不同种类噪声环境下进行,实验结果表明本发明可以在一定程度上抵抗噪声的干扰,实现声源的角度定位问题。
-
公开(公告)号:CN112731291A
公开(公告)日:2021-04-30
申请号:CN202011096916.3
申请日:2020-10-14
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。
-
公开(公告)号:CN112731291B
公开(公告)日:2024-02-20
申请号:CN202011096916.3
申请日:2020-10-14
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
IPC: G01S5/22 , G06N3/0464
Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。
-
公开(公告)号:CN112731289A
公开(公告)日:2021-04-30
申请号:CN202011456914.0
申请日:2020-12-10
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开了一种基于加权模板匹配的双耳声源定位方法和装置。在训练阶段,首先从训练数据中提取不同方向的双耳互相关函数和双耳强度差,为提取的各个方向的双耳互相关函数和双耳强度差建立模板;然后通过梯度下降法训练不同方向、不同频带的权重值。在线定位阶段,同样首先对信号提取特征,接着在不同特征和不同频带上将所提取的特征与各个方向的模板进行相似度匹配,最后通过加权融合不同特征不同频带的相似度,得到最终的声源方向相似度,取最大相似度方向为声源方向。实验在不同种类噪声环境下进行,实验结果表明本发明可以在一定程度上抵抗噪声的干扰,实现声源的角度定位问题。
-
公开(公告)号:CN114611546B
公开(公告)日:2025-04-15
申请号:CN202210137621.9
申请日:2022-02-15
Applicant: 北京大学深圳研究生院
IPC: G06F18/22 , G06F18/2131 , G06F18/241 , G01S5/22 , G06F18/25 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/044 , G06F123/00
Abstract: 本发明涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中,从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征,避免了多目标回归框架面临的分配歧义以及输出维度不确定问题;通过迭代地检测和定位主导声源来确定多移动声源的位置,降低了多声源之间的相互影响;引入频谱特征提取网络,建立了声源位置与声源身份之间的关联,通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。
-
公开(公告)号:CN114611546A
公开(公告)日:2022-06-10
申请号:CN202210137621.9
申请日:2022-02-15
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中,从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征,避免了多目标回归框架面临的分配歧义以及输出维度不确定问题;通过迭代地检测和定位主导声源来确定多移动声源的位置,降低了多声源之间的相互影响;引入频谱特征提取网络,建立了声源位置与声源身份之间的关联,通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。
-
公开(公告)号:CN109239665A
公开(公告)日:2019-01-18
申请号:CN201810752391.0
申请日:2018-07-10
Applicant: 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征向量包含的声源方向信息,构建局部信号子空间相似度谱,可以有效地反映声源的位置信息;采用局部谱分配方法综合多个时频带得到半局部谱,并采用粒子滤波器考虑帧间连续信息对声源进行跟踪,进一步提升了连续定位的准确性。本发明的优势在于为实际应用中多移动声源同时发声的声学场景提供了一种有效的声源定位思路。
-
公开(公告)号:CN110501673A
公开(公告)日:2019-11-26
申请号:CN201910808412.0
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。
-
公开(公告)号:CN106885574A
公开(公告)日:2017-06-23
申请号:CN201710081158.X
申请日:2017-02-15
Applicant: 北京大学深圳研究生院 , 深圳市银星智能科技股份有限公司
Abstract: 本发明公开了一种基于重跟踪策略的单目视觉机器人同步定位与地图构建方法。本方法为:1)对每张图片提取ORB特征;2)利用相邻图片的特征匹配跟踪相机姿态;3)对跟踪丢失的图片执行重定位与重跟踪策略;4)若重定位成功执行,则估计当前相机的姿态,且停止执行重跟踪策略并删除其产生的临时变量;5)若重跟踪策略成功执行,则产生一条新的轨迹;6)对产生的轨迹数量进行判定,若数量超过阈值,则将最初始的轨迹剔除;7)对每个关键帧进行闭环检测,检测成功后进行轨迹融合;8)定位系统结束时,对所述轨迹进行筛选,得到一条姿态正确的轨迹。本发明的优势在于能在快速移动、遮挡、纹理不足、光照变化的条件下,定位完整的相机轨迹。
-
公开(公告)号:CN109239665B
公开(公告)日:2022-04-15
申请号:CN201810752391.0
申请日:2018-07-10
Applicant: 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征向量包含的声源方向信息,构建局部信号子空间相似度谱,可以有效地反映声源的位置信息;采用局部谱分配方法综合多个时频带得到半局部谱,并采用粒子滤波器考虑帧间连续信息对声源进行跟踪,进一步提升了连续定位的准确性。本发明的优势在于为实际应用中多移动声源同时发声的声学场景提供了一种有效的声源定位思路。
-
-
-
-
-
-
-
-
-