一种基于加权模板匹配的双耳声源定位方法和装置

    公开(公告)号:CN112731289B

    公开(公告)日:2024-05-07

    申请号:CN202011456914.0

    申请日:2020-12-10

    Abstract: 本发明公开了一种基于加权模板匹配的双耳声源定位方法和装置。在训练阶段,首先从训练数据中提取不同方向的双耳互相关函数和双耳强度差,为提取的各个方向的双耳互相关函数和双耳强度差建立模板;然后通过梯度下降法训练不同方向、不同频带的权重值。在线定位阶段,同样首先对信号提取特征,接着在不同特征和不同频带上将所提取的特征与各个方向的模板进行相似度匹配,最后通过加权融合不同特征不同频带的相似度,得到最终的声源方向相似度,取最大相似度方向为声源方向。实验在不同种类噪声环境下进行,实验结果表明本发明可以在一定程度上抵抗噪声的干扰,实现声源的角度定位问题。

    基于主动跟踪和自适应手势识别的交接方法、装置及设备

    公开(公告)号:CN117576787A

    公开(公告)日:2024-02-20

    申请号:CN202410060569.0

    申请日:2024-01-16

    Abstract: 本申请公开了一种基于主动跟踪和自适应手势识别的交接方法、装置及设备,方法包括通过机器人安装的深度相机采集视频图像;基于视频图像通过媒体管道获取相机坐标系下的第一手部地标;将第一手部地标转换至预设的世界坐标系以得到第二手部地标;将第二手部地标输入经过训练的手势识别模型,通过手势识别模型确定所述视频图像对应的用户手势;通过机器人将交互对象交互给用户。本申请实施例通过使用包括媒体管道提示手部地标和通过手势识别模型识别用户手势的两阶段方法,在面对不同物体和不同照明条件时均能准确识别到用户手势,提高了人机交互的准确性,确保了与人类抓握一致的平稳和自然的交接过程。

    基于小目标搜索缩放技术的水下目标检测方法和系统

    公开(公告)号:CN112419227B

    公开(公告)日:2024-02-20

    申请号:CN202011096905.5

    申请日:2020-10-14

    Abstract: 本发明涉及一种基于小目标搜索缩放技术的水下目标检测方法和系统。该方法的步骤为:将待检测图片输入至目标检测网络Faster‑RCNN+FPN,得到第一检测结果;提取FPN中特征图的热力图,并提取FPN中特征图的边缘图,将热力图和边缘图进行结合,得到综合热力图;在综合热力图上进行搜索,找到激活值之和最大的窗口,提取待检测图片中该窗口内的图片并输入目标检测网络,得到第二检测结果;将第一检测结果和第二检测结果进行决策融合,得到最终的目标检测结果。本发明通过分析FPN激活值对原图进行缩放,关注密集小目标部分,从而进行多尺度推断,能够提高模型对小目标的检测能力。

    一种基于多模道特征融合的人体行为识别方法和装置

    公开(公告)号:CN109086659B

    公开(公告)日:2023-01-31

    申请号:CN201810607403.0

    申请日:2018-06-13

    Abstract: 本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括:1)针对输入的深度图像序列构建自适应分层结构;2)在自适应分层结构的每个层级提取DMM特征;3)串联每个层级的DMM特征,构建自适应深度运动图特征作为深度图像通道特征;4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点;5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;6)联合整个骨架图像序列,得到一个动作序列的特征表达作为骨架图像通道特征;7)通过特征融合并对融合后的特征进行分类,得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。

    基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统

    公开(公告)号:CN115294265A

    公开(公告)日:2022-11-04

    申请号:CN202210740281.9

    申请日:2022-06-27

    Abstract: 本发明涉及一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统。该方法的步骤包括:1)关节特征化,将输入的二维关节线性映射为高维特征向量;2)关节特征学习,通过Skeletal MHA获得人体拓扑结构信息,同时GCN强化局部信息交互能力,使得训练后的模型能够学习人体的全局和局部的特征,更好地适用于人体重建任务;3)进行网格顶点的回归,再加到基于人体模型提供的网格模板上,得到三维人体网格输出。本发明通过引入人体结构的先验信息,结合Transformer的全局感知能力和GCN的局部聚合与传递功能,使得GSAT网络能够在全局和局部水平进行学习,从而重建出更加准确的三维人体网格。

    一种基于空间和频谱时序信息建模的多移动声源定位方法和系统

    公开(公告)号:CN114611546A

    公开(公告)日:2022-06-10

    申请号:CN202210137621.9

    申请日:2022-02-15

    Inventor: 刘宏 杨冰 李一迪

    Abstract: 本发明涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中,从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征,避免了多目标回归框架面临的分配歧义以及输出维度不确定问题;通过迭代地检测和定位主导声源来确定多移动声源的位置,降低了多声源之间的相互影响;引入频谱特征提取网络,建立了声源位置与声源身份之间的关联,通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。

Patent Agency Ranking