-
公开(公告)号:CN109147763B
公开(公告)日:2020-08-11
申请号:CN201810752379.X
申请日:2018-07-10
Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院
Abstract: 本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。
-
公开(公告)号:CN110517705B
公开(公告)日:2022-02-18
申请号:CN201910808413.5
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。
-
公开(公告)号:CN109239665A
公开(公告)日:2019-01-18
申请号:CN201810752391.0
申请日:2018-07-10
Applicant: 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征向量包含的声源方向信息,构建局部信号子空间相似度谱,可以有效地反映声源的位置信息;采用局部谱分配方法综合多个时频带得到半局部谱,并采用粒子滤波器考虑帧间连续信息对声源进行跟踪,进一步提升了连续定位的准确性。本发明的优势在于为实际应用中多移动声源同时发声的声学场景提供了一种有效的声源定位思路。
-
公开(公告)号:CN109239665B
公开(公告)日:2022-04-15
申请号:CN201810752391.0
申请日:2018-07-10
Applicant: 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征向量包含的声源方向信息,构建局部信号子空间相似度谱,可以有效地反映声源的位置信息;采用局部谱分配方法综合多个时频带得到半局部谱,并采用粒子滤波器考虑帧间连续信息对声源进行跟踪,进一步提升了连续定位的准确性。本发明的优势在于为实际应用中多移动声源同时发声的声学场景提供了一种有效的声源定位思路。
-
公开(公告)号:CN110517705A
公开(公告)日:2019-11-29
申请号:CN201910808413.5
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。
-
公开(公告)号:CN110501673A
公开(公告)日:2019-11-26
申请号:CN201910808412.0
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。
-
公开(公告)号:CN109147763A
公开(公告)日:2019-01-04
申请号:CN201810752379.X
申请日:2018-07-10
Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院
Abstract: 本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。
-
-
-
-
-
-