-
公开(公告)号:CN116229939A
公开(公告)日:2023-06-06
申请号:CN202310091543.8
申请日:2023-01-29
Applicant: 北京大学深圳研究生院
IPC: G10L15/02 , G10L15/16 , G10L15/26 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及一种基于Transformer的视听融合机器人唤醒词识别方法及装置,涉及音视频信号处理领域。所述方法包括:提取当前环境下的音频特征和视频特征;基于Transformer的分类网络的自注意力操作和分类操作,分别获取音频特征和视频特征的音频唤醒词分类向量与视频唤醒词分类向量;基于音频特征进行自注意力操作时在时间维度上的注意力权重分布,得到唤醒词出现的时间。本发明不仅实现了高精度、鲁棒的基于分类的唤醒词识别,还可以精确定位唤醒词出现的时间。
-
公开(公告)号:CN115205896A
公开(公告)日:2022-10-18
申请号:CN202210738751.8
申请日:2022-06-24
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种基于图多层感知器的三维人体姿态估计方法及系统。该方法对输入的训练图像通过二维姿态检测器提取人体的二维骨架信息;利用骨架嵌入模块编码骨架成高维向量;利用图多层感知器模型来提取高维语义特征;利用预测头模块来回归得到三维骨架;利用均方误差损失函数训练模型。本发明结合了图卷积和多层感知器的优势,不需要复杂的自注意力机制,便可很好地提升骨架的表征学习能力。
-
公开(公告)号:CN114092873A
公开(公告)日:2022-02-25
申请号:CN202111271643.6
申请日:2021-10-29
Applicant: 北京大学深圳研究生院
IPC: G06V20/52 , G06V40/10 , G06V10/46 , G06V10/778 , G06K9/62
Abstract: 本发明涉及一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统。该方法对输入的训练图像通过人体稠密解析估计和边缘估计提取人体轮廓图像,求取训练图像与人体轮廓图像的残差,得到人体外观图像;利用形态表征模型对人体轮廓图像进行高级语义特征提取,利用外观表征模型对人体外观图像进行高级语义特征提取;利用三元组损失函数和识别损失函数训练外观表征模型和形态表征模型,采用学习的两个表征模型对待查询行人图像和候选行人图像提取形态特征和外观特征,通过计算相似性得分得到跨摄像头场景中的关联目标。本发明不需要采用复杂的对抗学习模型就能提取行人的形态信息,并可避免挖掘涉及隐私的人脸信息及不可靠的行人步态信息。
-
公开(公告)号:CN109165540B
公开(公告)日:2022-02-25
申请号:CN201810608363.1
申请日:2018-06-13
Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院
IPC: G06V40/10 , G06V10/762 , G06K9/62
-
公开(公告)号:CN110517705B
公开(公告)日:2022-02-18
申请号:CN201910808413.5
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。
-
公开(公告)号:CN108960099B
公开(公告)日:2021-07-06
申请号:CN201810653661.2
申请日:2018-06-22
Applicant: 哈尔滨工业大学深圳研究生院 , 北京大学深圳研究生院
Abstract: 本发明公开了一种人脸左右倾斜角度的估计方法、系统、设备及存储介质,包括以下步骤:将人脸图像以指定方式均分为第一图像和第二图像;计算所述第一图像与第二图像之间的像素值的相对差异值;根据所述相对差异值计算出对应的人脸左右倾斜角度。本发明的人脸左右倾斜角度的估计方法、系统、设备及存储介质的有益效果为:通过根据像素值的相对差异值计算出对应的人脸左右倾斜角度,简化了人脸倾斜角度估计的步骤,提高了人脸左右倾斜角度计算速度和有效地避免了光照变化的影响。
-
公开(公告)号:CN112419227A
公开(公告)日:2021-02-26
申请号:CN202011096905.5
申请日:2020-10-14
Applicant: 北京大学深圳研究生院 , 鹏城实验室
Abstract: 本发明涉及一种基于小目标搜索缩放技术的水下目标检测方法和系统。该方法的步骤为:将待检测图片输入至目标检测网络Faster‑RCNN+FPN,得到第一检测结果;提取FPN中特征图的热力图,并提取FPN中特征图的边缘图,将热力图和边缘图进行结合,得到综合热力图;在综合热力图上进行搜索,找到激活值之和最大的窗口,提取待检测图片中该窗口内的图片并输入目标检测网络,得到第二检测结果;将第一检测结果和第二检测结果进行决策融合,得到最终的目标检测结果。本发明通过分析FPN激活值对原图进行缩放,关注密集小目标部分,从而进行多尺度推断,能够提高模型对小目标的检测能力。
-
公开(公告)号:CN107358629B
公开(公告)日:2020-11-10
申请号:CN201710549596.4
申请日:2017-07-07
Applicant: 北京大学深圳研究生院 , 深圳市银星智能科技股份有限公司
IPC: G06T7/73
Abstract: 本发明涉及一种基于目标识别的室内定位与建图方法,其步骤包括:1)输入颜色深度图像,根据颜色深度图像建立目标物体模型数据库;2)输入实时测量的颜色深度图像,将其转换成3D点云,并求出当前视角能看到的场景表面;3)根据3D点云并基于最近迭代点估计相机的姿态;4)根据3D点云和建立的目标物体模型数据库,利用点对特征进行物体识别并估计物体的姿态;5)利用相机姿态和物体姿态优化姿态图;6)根据姿态图得到最优的物体姿态,利用已知的目标物体模型数据库进行表面渲染,得到当前环境的三维地图。本发明能在具有大量物体的场景下进行室内定位和地图建立,建图精度高,所用计算资源少。
-
公开(公告)号:CN109239665A
公开(公告)日:2019-01-18
申请号:CN201810752391.0
申请日:2018-07-10
Applicant: 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征向量包含的声源方向信息,构建局部信号子空间相似度谱,可以有效地反映声源的位置信息;采用局部谱分配方法综合多个时频带得到半局部谱,并采用粒子滤波器考虑帧间连续信息对声源进行跟踪,进一步提升了连续定位的准确性。本发明的优势在于为实际应用中多移动声源同时发声的声学场景提供了一种有效的声源定位思路。
-
公开(公告)号:CN108960099A
公开(公告)日:2018-12-07
申请号:CN201810653661.2
申请日:2018-06-22
Applicant: 哈尔滨工业大学深圳研究生院 , 北京大学深圳研究生院
CPC classification number: G06K9/00228 , G06K9/6201
Abstract: 本发明公开了一种人脸左右倾斜角度的估计方法、系统、设备及存储介质,包括以下步骤:将人脸图像以指定方式均分为第一图像和第二图像;计算所述第一图像与第二图像之间的像素值的相对差异值;根据所述相对差异值计算出对应的人脸左右倾斜角度。本发明的人脸左右倾斜角度的估计方法、系统、设备及存储介质的有益效果为:通过根据像素值的相对差异值计算出对应的人脸左右倾斜角度,简化了人脸倾斜角度估计的步骤,提高了人脸左右倾斜角度计算速度和有效地避免了光照变化的影响。
-
-
-
-
-
-
-
-
-