-
公开(公告)号:CN116228824A
公开(公告)日:2023-06-06
申请号:CN202310030561.5
申请日:2023-01-09
Applicant: 西安电子科技大学
IPC: G06T7/33 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及一种图像配准方法,涉及计算机视觉领域,该方法可在不进行网络级联和多次插值的情况下,有效提升大位移下的图像配准精度。方法步骤包括:将固定图像和浮动图像拼接后,输入训练好的图像配准网络,利用图像配准网络学习浮动图像和固定图像的差异,输出配准图像;所述图像配准网络包括骨干网络,多卷积融合模块和空间变换层;其中:骨干网络,基于拼接的固定图像和浮动图像得到第一位移场,并基于第一位移场对浮动图像进行插值得到第一特征图;多卷积融合模块,基于第一特征图提取多尺度的位置信息并融合,得到第二位移场,再将第一位移场和第二位移场相加得到第三位移场;空间变换层,基于第三位移场对浮动图像做空间变换生成配准图像。
-
公开(公告)号:CN116842212A
公开(公告)日:2023-10-03
申请号:CN202310609087.1
申请日:2023-05-26
Applicant: 西安电子科技大学
IPC: G06F16/583 , G06F40/289 , G06F40/284 , G06F40/30 , G06V40/10 , G06V10/42 , G06V10/44 , G06V10/764
Abstract: 本发明公开了一种基于边界框提取和语义一致性约束的跨模态文本‑行人检索方法,包括下述步骤:提取图像细粒度边界框;提取文本细粒度名词短语;生成训练集;构建细粒度聚合网络;训练细粒度聚合网络;使用文本对行人进行检索。本发明构建了基于边界框提取和语义一致性约束的文本‑行人检索模型,利用现有的大型预训练模型(GLIP和CLIP)中的视觉语言知识,使用文本提示和GLIP精准提取识别行人身份的关键性局部特征,提高行人检索的准确度;使用CLIP提取视觉和语言特征,获取更为全面的语义表征;设计保持特征语义一致性的约束方法,减少噪声干扰,提高行人检索的稳定性。
-