一种基于语义探索的开集动作识别方法

    公开(公告)号:CN116129333B

    公开(公告)日:2023-07-11

    申请号:CN202310395174.1

    申请日:2023-04-14

    Inventor: 胡雨凡 刘红敏

    Abstract: 本发明公开了一种基于语义探索的开集动作识别方法,包括:针对给定的输入视频,提取出预设维度的片段级视觉特征;通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息;基于片段级视觉特征与视频的语义信息,获得最终的视频特征;基于所述视频特征,利用预设的识别模型实现开集动作识别。本发明的技术方案可更好地感知开放场景,并有效提升最终的识别性能。

    一种双重模态增强机制的RGB-T跟踪方法及装置

    公开(公告)号:CN119169048A

    公开(公告)日:2024-12-20

    申请号:CN202411058651.6

    申请日:2024-08-02

    Abstract: 本发明涉及多模态学习技术领域,特别是指一种双重模态增强机制的RGB‑T跟踪方法及装置,方法包括:构建初始多模态目标跟踪模型,初始多模态目标跟踪模型包括两个并行的ViT骨干网络、初始红外感知适配器、初始跨模态融合适配器、RGB预测头、红外预测头以及响应图解耦蒸馏响应模块;根据训练样本以及预设的损失函数,对初始多模态目标跟踪模型进行训练优化,得到训练好的多模态目标跟踪模型,包括Transformer骨干网络、红外感知适配器、跨模态融合适配器、RGB预测头以及红外预测头;获取待识别数据,将待识别RGB图像以及待识别红外图像输入到多模态目标跟踪模型,得到待识别数据对应的跟踪结果。采用本发明,可以提高目标跟踪的精准度。

    一种基于大模型引导的图像分割方法

    公开(公告)号:CN118298169A

    公开(公告)日:2024-07-05

    申请号:CN202410236797.9

    申请日:2024-03-01

    Abstract: 本发明公开了一种基于大模型引导的图像分割方法,属于图像处理与计算机视觉技术领域,该方法包括:构建大模型引导分割网络模型;其中,大模型引导分割网络模型包括大模型优化模块和多任务图像处理模块;大模型优化模块用于对输入图像进行分割与过滤,得到接近真实场景标签的分割掩码,作为引导信息;多任务图像处理模块用于提取输入图像的特征图,并融合所述引导信息,实现图像分割;采用预设类型的图像集对构建的大模型引导分割网络模型进行训练;利用训练好的大模型引导分割网络模型得到待分割图像的图像分割结果。采用本发明的方案,可使模型能够利用大模型的良好分割结果进行引导;同时减少模型对数据标签的依赖,从而增强模型的泛化性能。

    一种基于语义探索的开集动作识别方法

    公开(公告)号:CN116129333A

    公开(公告)日:2023-05-16

    申请号:CN202310395174.1

    申请日:2023-04-14

    Inventor: 胡雨凡 刘红敏

    Abstract: 本发明公开了一种基于语义探索的开集动作识别方法,包括:针对给定的输入视频,提取出预设维度的片段级视觉特征;通过联合学习显式知识语义和隐式数据语义来探索视频的语义信息;基于片段级视觉特征与视频的语义信息,获得最终的视频特征;基于所述视频特征,利用预设的识别模型实现开集动作识别。本发明的技术方案可更好地感知开放场景,并有效提升最终的识别性能。

    一种基于扩散模型的电极板短路检测方法

    公开(公告)号:CN119671955A

    公开(公告)日:2025-03-21

    申请号:CN202411705503.9

    申请日:2024-11-26

    Abstract: 本发明公开了一种基于扩散模型的电极板短路检测方法,属于电极板短路检测技术领域,其包括:获取电极板的红外图像及显著图,构建样本数据集;将扩散模型引入电极板短路检测,在基于扩散模型的目标检测框架中添加显著性感知的特征增强分支和全局特征微调模块,构建检测模型;其中,显著性感知的特征增强分支用于引入显著图特征来增强红外图像特征;全局特征微调模块用于对图像特征进行微调,以获得与目标相关的上下文背景信息;对检测模型进行训练;利用训练好的模型对待检测的电极板进行检测。本发明可提取更高质量、更加丰富全面的目标特征,从而提高检测精度。

    一种基于大模型引导的图像分割方法

    公开(公告)号:CN118298169B

    公开(公告)日:2024-10-25

    申请号:CN202410236797.9

    申请日:2024-03-01

    Abstract: 本发明公开了一种基于大模型引导的图像分割方法,属于图像处理与计算机视觉技术领域,该方法包括:构建大模型引导分割网络模型;其中,大模型引导分割网络模型包括大模型优化模块和多任务图像处理模块;大模型优化模块用于对输入图像进行分割与过滤,得到接近真实场景标签的分割掩码,作为引导信息;多任务图像处理模块用于提取输入图像的特征图,并融合所述引导信息,实现图像分割;采用预设类型的图像集对构建的大模型引导分割网络模型进行训练;利用训练好的大模型引导分割网络模型得到待分割图像的图像分割结果。采用本发明的方案,可使模型能够利用大模型的良好分割结果进行引导;同时减少模型对数据标签的依赖,从而增强模型的泛化性能。

    一种基于多模态跨领域的图文互搜方法及装置

    公开(公告)号:CN118535761A

    公开(公告)日:2024-08-23

    申请号:CN202410563552.7

    申请日:2024-05-08

    Inventor: 胡雨凡

    Abstract: 本发明涉及多模态学习和跨领域适应技术领域,特别是指一种基于多模态跨领域的图文互搜方法及装置,方法包括:确定源图像特征数据、对应的源语言特征数据、目标图像特征数据或目标语言特征数据;根据目标图像特征数据、排序感知器、概念分类器以及领域判断器,确定包含未知概念的目标域图像以及、其它图像;根据目标域图像、源语言特征数据以及目标语言特征数据,生成目标域样本以及其它样本;根据源领域数据、目标领域数据、目标域样本以及其它样本,对待训练的图文互搜模型进行训练,得到训练好的图文互搜模型根据训练好的图文互搜模型进行图文搜索。采用本发明,可以促进跨领域适应,提高图文互搜的准确率和效率。

    一种基于轻量结构化线地图的视觉定位方法

    公开(公告)号:CN116662600A

    公开(公告)日:2023-08-29

    申请号:CN202310678818.8

    申请日:2023-06-08

    Abstract: 本发明公开了一种基于轻量结构化线地图的视觉定位方法,包括:通过图像检索,将查询图像与数据库图像进行图像匹配,根据图像匹配结果,找到与查询图像最相似的多个数据库图像,作为候选数据库图像;构建用于视觉定位的线地图;对所述查询图像和所述候选数据库图像进行线提取和匹配,构建二维到三维的线对应关系;基于构建的二维到三维的线对应关系,求解初始姿态;对求解出的初始姿态进行姿态迭代优化,得到最终的相机位姿。本发明可在较低的内存消耗下估计出较好的相机六自由度位姿,具有重大的应用前景和价值。

    一种基于RGB通道恢复的水下图像增强方法

    公开(公告)号:CN116167941A

    公开(公告)日:2023-05-26

    申请号:CN202310183552.X

    申请日:2023-02-17

    Abstract: 本发明公开了一种基于RGB通道恢复的水下图像增强方法,包括:获取由水下退化图像和水下清晰图像构成的图像集;采用生成对抗网络构建水下图像增强模型,并设计一个多项损失函数;基于获取的图像集和设计的多项损失函数,训练水下图像增强模型;将待增强的水下退化图像输入训练好的水下图像增强模型,得到待增强的水下退化图像所对应的清晰图像。本发明能够对水下退化图像不同衰减程度的通道针对性地进行处理,有效、鲁棒地增强水下图像。

    一种基于伪标签生成的弱监督时序动作定位方法及装置

    公开(公告)号:CN119723678A

    公开(公告)日:2025-03-28

    申请号:CN202510217146.X

    申请日:2025-02-26

    Abstract: 本发明提供一种基于伪标签生成的弱监督时序动作定位方法及装置,涉及时序动作定位技术领域。该方法包括:对未剪辑视频进行片段划分,获得视频片段集合;通过特征提取器进行特征提取,获得逐片段特征集合;通过弱监督分支进行初步动作分类,获得分类注意力序列以及多尺度的动作提案集合;使用提案融合策略进行提案融合优化,获得伪标签提案集合;根据动作提案集合生成不确定性掩码集合。基于注意力机制,通过动态优化机制对全监督分支进行优化训练,获得第二优化全监督分支;基于特征提取器、弱监督分支和第二优化全监督分支进行动作定位。本发明是一种高质量伪标签生成的充分利用先验信息且有效结合全监督方法的弱监督时序动作定位方法。

Patent Agency Ranking