基于提示性引导查询的级联约束解码人物交互检测方法

    公开(公告)号:CN117152792A

    公开(公告)日:2023-12-01

    申请号:CN202311084633.0

    申请日:2023-08-25

    Abstract: 本发明公开了一种基于提示性引导查询的级联约束解码人物交互检测方法,构建并训练人物交互检测网络模型,所述人物交互检测网络模型包括目标检测器、向量融合模块和级联约束交互解码器,然后将待检测图像输入至目标检测器中得到目标框、目标类别与置信度分数,在向量融合模块中,将得到的视觉查询向量、空间查询向量和语义查询向量拼接得到最终的融合查询向量,再通过级联约束交互解码器,采用主分支解码器和抑制分支解码器对融合查询向量进行解码,将两个分支的输出进行交互感知融合,再经过多层感知机得到交互检测结果。本发明可以挖掘更深层次的交互式表征,并提高模型的泛化能力性能,提高了人、物交互检测人物的精度,具有领先的性能。

    一种基于多尺度可变形Transformer网络的人与物交互检测方法

    公开(公告)号:CN116758298A

    公开(公告)日:2023-09-15

    申请号:CN202211447645.0

    申请日:2022-11-18

    Abstract: 本发明公开了一种基于多尺度可变形Transformer网络的人与物交互检测方法,将待检测图像输入到多尺度骨干网络提取特征,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;然后将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;最后将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。本发明引入级联可变形解码器结构,以一致性地获得复杂环境中的交互预测。

    一种融合稀疏框架和空间注意力的实时实例分割方法

    公开(公告)号:CN115100410A

    公开(公告)日:2022-09-23

    申请号:CN202210803057.X

    申请日:2022-07-07

    Abstract: 本发明公开了一种融合稀疏框架和空间注意力的实时实例分割方法首先获取待处理图像,输入到特征提取网络提取多尺度特征图,将多尺度特征图输入到特征增强网络,得到增强的特征图;然后将增强的特征图输入到实例分支,得到目标框和目标分类,将增强的特征图与实例分支输出的目标框进行拼接后输入到掩码分支,首先经过卷积操作,然后分别经过空间注意力模块和掩码核生成模块,得到空间注意力特征和掩码核,将空间注意力特征和掩码核相乘得到分割掩码;最后将分割掩码、目标框和目标分类映射到待处理图像上,得到实例分割结果。本发明提高了实例分割任务的速度和精度,当输入为连续视频帧时,可以获得实时且精确的分割结果。

    运用自选择注意并强指导查询的人与物交互检测方法

    公开(公告)号:CN116306778A

    公开(公告)日:2023-06-23

    申请号:CN202310065539.4

    申请日:2023-01-16

    Abstract: 本发明公开了一种运用自选择注意并强指导查询的人与物交互检测方法,将图片通过训练好的DETR模型,获得人物目标框,目标类别和视觉特征向量,从而减少模型训练时间。运用强指导查询增强特征在语义模态和空间模态的表征,并筛选数量减少不必要计算,同时添加自选择注意模块提高了网络聚焦关键信息的能力。强指导查询通过解码器和MLP,输出人与物交互动作结果。本发明提高了人与物交互检测的精度和减少了训练所需时间。

    一种基于级联解码器的语义人物交互检测方法

    公开(公告)号:CN115909475A

    公开(公告)日:2023-04-04

    申请号:CN202210803060.1

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于级联解码器的语义人物交互检测方法,将待检测图像输入到骨干网络提取特征,将提取的特征展平为一维向量,作为后续处理的图像视觉特征,然后将图像视觉特征输入到共享编码器,得到编码特征,之后采用人‑物解码器和动词解码器进行解码,采用语义分支得到置信度分数,采用置信度分数来约束输出,得到最终的检测结果。本发明使用级联解码器的结构来更好的获取人‑物与动作的特征,并通过预训练的语义模块来约束预测结果的输出,最后输出交互结果,提高了人‑物交互检测的精度。

    一种基于跨帧实例关联的视频实例分割方法

    公开(公告)号:CN116152710A

    公开(公告)日:2023-05-23

    申请号:CN202310083300.X

    申请日:2023-02-08

    Abstract: 本发明公开了一种基于跨帧实例关联的视频实例分割方法,将待分割视频帧序列输入到多尺度特征提取器提取到不同尺度的特征图,通过变压器编码器中提取到时空特征,然后通过像素解码器来得到融合后的时空特征,最后经过变压器解码器,得到最终的嵌入向量,将嵌入向量与高分辨率时空特征进行点积操作,获得实例分割结果。本发明通过面向时空特征的多尺度方法来学习动态实例的时空相关性并构建更稳定的跨帧实例关联,建立可靠的跨帧实例关联,提高了视频实例分割任务的精度,在两个流行的数据集上比最近的方法取得了领先的性能。

    一种完全卷积的实时视频实例分割方法

    公开(公告)号:CN115171020A

    公开(公告)日:2022-10-11

    申请号:CN202210843346.2

    申请日:2022-07-18

    Abstract: 本发明公开了一种完全卷积的实时视频实例分割方法,首先待处理图像,输入到特征提取网络提取低阶、中阶和高阶初始特征图;然后将低阶、中阶和高阶初始特征图输入到编码器,进行融合拼接,得到编码特征;将编码特征输入到解码器,所述解码器包括掩码生成分支和实例激活分支,编码特征输入到掩码生成分支后得到分割掩码,编码特征输入到实例激活分支后得到动态卷积核、分类信息和匹配信息;最后将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。本发明使用了以一种新的实例激活模块提高了检测精度,最后使用了二部匹配机制,极大的减少了模型的推理时间,提高了实时性,提高了视频实例分割的精度。

    基于DETR的人物成对解码交互的人与物交互检测方法

    公开(公告)号:CN115147931A

    公开(公告)日:2022-10-04

    申请号:CN202210864552.1

    申请日:2022-07-21

    Abstract: 本发明公开了一种基于DETR的人物成对解码交互的人与物交互检测方法,将图片通过训练好的DETR模型,获得人物目标框、目标类别和查询向量,从而减少模型训练时间。然后将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;将物的类别输入到语义网络,得到物的语义查询向量,融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量。最后将对象查询向量输入到成对融合检测网络,实现人物交互检测。本发明提高了人与物交互检测的精度,扩大了网络的感受野,提高了网络的性能。

Patent Agency Ranking