一种基于双向线索增强的时序动作定位方法及系统

    公开(公告)号:CN119992410A

    公开(公告)日:2025-05-13

    申请号:CN202510004451.0

    申请日:2025-01-02

    Abstract: 本发明公开了一种基于双向线索增强的时序动作定位方法及系统,属于计算机视觉技术领域,该方法包括:获取待处理的视频数据;将获取的视频数据输入时序动作定位模型;其中,所述时序动作定位模型包括:视频特征提取模块、双向线索增强模块和动作检测头;所述视频特征提取模块用于提取视频数据对应的视频特征;所述双向线索增强模块用于采用双向的特征提取机制对视频特征提取模块提取的视频特征进行特征提取和增强,得到增强的特征;所述动作检测头用于根据增强的特征,完成对动作实例的分类和定位;利用所述时序动作定位模型对输入视频中的动作进行定位和分类。本发明方案可有效提升动作定位准确性。

    一种基于扩散模型的时序动作定位方法

    公开(公告)号:CN118279786A

    公开(公告)日:2024-07-02

    申请号:CN202410229845.1

    申请日:2024-02-29

    Abstract: 本发明涉及计算机视觉技术领域,特别是指一种基于扩散模型的时序动作定位方法,方法包括:获取待处理的视频数据;将视频数据输入到时序特征提取器,得到视频数据的特征;将特征输入到构建好的多尺度的时序表征感知TRP编码器,得到视频特征的长期依赖时序特征信息;将长期依赖时序特征信息输入到训练好的扩散检测器模型,得到视频数据的时序动作定位结果。本发明设计了一种渐进且细化方法,使得精确的边界定位成为可行。并引入了一种时序建模方法,通过强化时序建模来捕捉特征的时序演变信息和长期依赖信息,从而进一步提升动作定位的准确性。

    一种姿态增强的多目标跟踪方法及系统

    公开(公告)号:CN119904488A

    公开(公告)日:2025-04-29

    申请号:CN202510010806.7

    申请日:2025-01-03

    Inventor: 徐婧林 张旭东

    Abstract: 本发明公开了一种姿态增强的多目标跟踪方法及系统,属于机器视觉技术领域,所述方法包括:对待检测的视频帧进行目标检测,得到检测结果;基于检测结果提取目标特征,得到目标的外观特征值和姿态特征值;计算检测结果的拓展交并比,基于拓展交并比以及目标的外观特征和姿态特征,采用预设的轨迹匹配策略进行轨迹匹配,得到匹配结果;基于匹配结果,实现目标跟踪。采用本发明的技术方案,可有效提升追踪的稳定性和准确性,并解决封闭环境下的跟踪难题。

    一种基于阶段性持续学习的可伸缩单流追踪方法

    公开(公告)号:CN116433727A

    公开(公告)日:2023-07-14

    申请号:CN202310691919.9

    申请日:2023-06-13

    Abstract: 本发明涉及视觉目标追踪技术领域,特别是指一种基于阶段性持续学习的可伸缩单流追踪方法。一种基于阶段性持续学习的可伸缩单流追踪方法包括:获取搜索图像以及模板图像,对搜索图像以及模板图像进行处理,获得输入图像;将输入图像进行特征向量化处理,获得向量化特征;基于向量化特征,通过交互窗口自注意力模块以及动态混合注意力模块,获得目标图像特征;根据目标图像特征,通过分类头以及回归头,获得输出图像;根据输出图像,在目标时序运动中进行目标追踪。本发明是一种基于阶段间持续学习具备优秀前后景区分能力的追踪方法。

    基于视觉语言预训练的开放词汇时空动作检测方法及装置

    公开(公告)号:CN119904781A

    公开(公告)日:2025-04-29

    申请号:CN202510010810.3

    申请日:2025-01-03

    Inventor: 徐婧林 周汶昊

    Abstract: 本发明提供一种基于视觉语言预训练的开放词汇时空动作检测方法及装置,涉及时空动作检测技术领域。该方法包括:获取待检测的视频数据输入到局部分支得到与人相关的区域特征;局部分支包括以人为中心的与类别无关管检测器和位置感知的区域解析器;将视频数据输入到全局分支得到全局视频特征;全局分支包括视频层面的视觉语言预训练模型;将与人相关的区域特征以及全局视频特征融合,计算融合的视频区域特征与文本特征的相似度得到行为类别的分类结果。在UCF‑JHMDB数据集上进行广泛实验表明,本发明优于现有方法的性能。为解决开放识别能力不足的问题提供了一种可行的解决方案,为进一步研究时空动作检测提供了新的方向和思路。

    一种跨模态语义信息监督的轨迹预测方法

    公开(公告)号:CN117009787A

    公开(公告)日:2023-11-07

    申请号:CN202311029806.9

    申请日:2023-08-15

    Abstract: 本发明涉及轨迹预测技术领域,特别是指一种跨模态语义信息监督的轨迹预测方法及装置。一种跨模态语义信息监督的轨迹预测方法包括采集车辆信息、行驶信息和地图信息,获得语义监督信息以及未来轨迹真值信息;根据地图特征和历史轨迹特征获得全局背景信息特征;根据未来轨迹特征进行映射变换,获得距真值最近预测轨迹特征;根据语义特征、全局背景信息特征和距真值最近预测轨迹特征,对待训练语义监督轨迹预测模型进行对比学习训练,基于未来轨迹真值信息,获得语义监督轨迹预测模型,根据语义监督轨迹预测模型进行轨迹预测。本发明是一种针对场景语义信息的准确、高效的语义监督轨迹预测方法。

    一种跨模态语义信息监督的轨迹预测方法

    公开(公告)号:CN117009787B

    公开(公告)日:2025-02-21

    申请号:CN202311029806.9

    申请日:2023-08-15

    Abstract: 本发明涉及轨迹预测技术领域,特别是指一种跨模态语义信息监督的轨迹预测方法及装置。一种跨模态语义信息监督的轨迹预测方法包括采集车辆信息、行驶信息和地图信息,获得语义监督信息以及未来轨迹真值信息;根据地图特征和历史轨迹特征获得全局背景信息特征;根据未来轨迹特征进行映射变换,获得距真值最近预测轨迹特征;根据语义特征、全局背景信息特征和距真值最近预测轨迹特征,对待训练语义监督轨迹预测模型进行对比学习训练,基于未来轨迹真值信息,获得语义监督轨迹预测模型,根据语义监督轨迹预测模型进行轨迹预测。本发明是一种针对场景语义信息的准确、高效的语义监督轨迹预测方法。

    一种基于扩散模型的时序动作定位方法

    公开(公告)号:CN118279786B

    公开(公告)日:2024-11-22

    申请号:CN202410229845.1

    申请日:2024-02-29

    Abstract: 本发明涉及计算机视觉技术领域,特别是指一种基于扩散模型的时序动作定位方法,方法包括:获取待处理的视频数据;将视频数据输入到时序特征提取器,得到视频数据的特征;将特征输入到构建好的多尺度的时序表征感知TRP编码器,得到视频特征的长期依赖时序特征信息;将长期依赖时序特征信息输入到训练好的扩散检测器模型,得到视频数据的时序动作定位结果。本发明设计了一种渐进且细化方法,使得精确的边界定位成为可行。并引入了一种时序建模方法,通过强化时序建模来捕捉特征的时序演变信息和长期依赖信息,从而进一步提升动作定位的准确性。

Patent Agency Ranking