-
公开(公告)号:CN119313866A
公开(公告)日:2025-01-14
申请号:CN202411159473.6
申请日:2024-08-22
Applicant: 杭州电子科技大学
IPC: G06V10/25 , G06V10/82 , G06N3/0464 , G06N3/0895 , G06N3/09 , G06N3/096 , G06N5/04
Abstract: 本发明公开了一种基于随机上下文一致性推理的目标检测域适应方法。采用半监督学习的师生模型框架,通过教师模型的指数移动平均来进行缓慢更新,使得模型能够从学生模型习得的主要知识中获取信息,从而实现自监督效果。通过引入随机互补掩码模块掩码掉网络严重依赖的部分局部视觉特征,从而鼓励网络利用上下文中的其他视觉线索。此外,通过内部上下文一致性推理模块避免了大多数自训练框架中严重依赖伪标签的现象,通过构建学生模型的自监督训练范式来提高学生模型自身的上下文推理能力。最后,通过外部上下文一致性推理模块构建了基于师生模型的自训练框架,利用教师模型具有全局先验知识的伪标签鼓励学生模型对于被掩码区域做出正确的预测。
-
公开(公告)号:CN118626669A
公开(公告)日:2024-09-10
申请号:CN202410505385.0
申请日:2024-04-25
Applicant: 杭州电子科技大学
IPC: G06F16/583 , G06V10/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06V30/18 , G06V30/19 , G06V30/41 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种考虑场景文本位置关系的图文检索方法。首先准备数据,进行特征提取;然后进行图片端场景文本的特征融合,得到图片端的场景文本特征;再通过位置关系建模分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征;将两者进行融合,得到图片端的总特征;另一方面提取文本端的总特征最后根据文本总特征和图片总特征之间的相似度,取相似度最高的图片‑文本对作为检索的结果。通过考虑场景文本的位置关系,本发明提供了一种改进的方法,可以提高图文检索的准确性,改善多模态信息融合,并在处理含场景文本的任务中表现出色。这对于多种应用领域都具有重要意义,包括图像检索和图像生成。
-