-
公开(公告)号:CN119313866A
公开(公告)日:2025-01-14
申请号:CN202411159473.6
申请日:2024-08-22
Applicant: 杭州电子科技大学
IPC: G06V10/25 , G06V10/82 , G06N3/0464 , G06N3/0895 , G06N3/09 , G06N3/096 , G06N5/04
Abstract: 本发明公开了一种基于随机上下文一致性推理的目标检测域适应方法。采用半监督学习的师生模型框架,通过教师模型的指数移动平均来进行缓慢更新,使得模型能够从学生模型习得的主要知识中获取信息,从而实现自监督效果。通过引入随机互补掩码模块掩码掉网络严重依赖的部分局部视觉特征,从而鼓励网络利用上下文中的其他视觉线索。此外,通过内部上下文一致性推理模块避免了大多数自训练框架中严重依赖伪标签的现象,通过构建学生模型的自监督训练范式来提高学生模型自身的上下文推理能力。最后,通过外部上下文一致性推理模块构建了基于师生模型的自训练框架,利用教师模型具有全局先验知识的伪标签鼓励学生模型对于被掩码区域做出正确的预测。
-
公开(公告)号:CN118736238A
公开(公告)日:2024-10-01
申请号:CN202410836723.9
申请日:2024-06-26
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种用于显著目标检测的轻量化图像特征提取方法。本发明使用卷积神经网络和注意力机制混合架构提取图像多尺度特征。在多尺度空洞卷积模块中,使用深度卷积和逐点卷积代替常规卷积,以减少网络所需的参数;使用空洞卷积,在不改变图像分辨率的基础上扩大感受野;使用并行结构,对每个分支的空洞卷积设置不同的空洞率,以充分提取输入的多尺度特征。在全局特征提取模块中,使用自注意力和空间注意力机制并行的结构,利用注意力机制编码全局信息。本发明通过探索卷积和注意力机制混合的轻量化架构,在减少参数的情况下提高了图像提取多尺度特征的能力。
-
公开(公告)号:CN118587341A
公开(公告)日:2024-09-03
申请号:CN202410682122.7
申请日:2024-05-29
Applicant: 杭州电子科技大学
IPC: G06T15/00 , G06T9/00 , G06N3/0455 , G06N3/048 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于位置编码增强的点云渲染方法、系统及设备。本发明在神经网络训练阶段需要与点云观察视角对齐的2D图片。在训练过程当中,首先对点云做位置编码。本发明使用超参网络和高斯采样来增强位置编码,之后再输入渲染网络得到最后结果。其中位置编码增强网络中的超参网络具体实现如下:首先将超参网络中的线性层Ⅰ视为低频段sin(wx+b)的ω和b;其次定义ReLU层中的激活函数;最后将超参网络中的线性层Ⅱ视为高频段sin(wx+b)的ω和b。本发明使得位置编码的过程参与神经网络整个可微过程的优化,从而生成更加准确和精细的渲染图像。
-
公开(公告)号:CN118351151A
公开(公告)日:2024-07-16
申请号:CN202410429433.2
申请日:2024-04-10
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于图匹配的街景建筑跨源点云配准方法。首先将获得的两个跨源点云集归一化为相同的尺度,利用三维点云的几何特性,将街景建筑点云分割成超体素,并且提取这些超体素的特征描述符。将提取的超体素和其特征描述符作为图的节点,超体素的相邻关系作为边构建图,将三维点云配准转化为图结构匹配。根据图匹配结果得到的对应关系执行街景建筑点云配准,最终得到两个跨源点云集间的刚性变换配准结果。本发明对跨源点云采用微观结构和宏观结构的提取,将三维点云配准转化成图匹配,并且优化了图匹配的方法,大大提高了跨源点云的配准精度和效率。
-
公开(公告)号:CN115496788A
公开(公告)日:2022-12-20
申请号:CN202211215408.1
申请日:2022-09-30
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种使用空域传播后处理模块的深度补全方法,首先确定深度估计网络模型;然后确定空域传播后处理模块;再对加上空域传播后处理模块的深度估计网络进行训练;最后通过训练好的模型完成深度补全。本发明相较于传统的单目深度估计、补全网络增加了额外的后处理过程,使得模型能够更加充分地利用来自LiDAR的精确稀疏深度信息,达到使深度补全结果更加准确的效果。
-
公开(公告)号:CN115222998A
公开(公告)日:2022-10-21
申请号:CN202211120458.1
申请日:2022-09-15
Applicant: 杭州电子科技大学 , 浙江大华技术股份有限公司
Inventor: 颜成钢 , 殷俊 , 颜拥 , 王洪波 , 胡冀 , 熊剑平 , 李亮 , 郑博仑 , 林聚财 , 孔书晗 , 王亚运 , 孙垚棋 , 金恒 , 朱尊杰 , 高宇涵 , 殷海兵 , 王鸿奎 , 陈楚翘 , 刘一秀 , 李文超 , 王廷宇 , 张勇东 , 张继勇
IPC: G06V10/764 , G06V10/30 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络;然后将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图;最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。本发明设计了一种新的多尺度自注意力机制,它利用一系列的深度可分离卷积操作,生成特征信息高度相关的局部特征图和区域特征图,不但可以强化自注意力机制的细粒度特征提取能力,还可以高效的提取有效的全局信息。
-
公开(公告)号:CN114943790A
公开(公告)日:2022-08-26
申请号:CN202210579474.0
申请日:2022-05-25
Applicant: 杭州电子科技大学
Abstract: 本发明公开了基于长短期跨模态一致性推理的迭代文本图像生成方法。首先获取文本指令意图的特征向量表示;然后提取源视觉图像的长期视觉特征信息和短期视觉特征信息;再构建目标图像生成器,通过目标图像生成器输出目标图像;将文本指令信息,长短期源视觉特征和生成的目标图像共同输入到长短期跨模态判别器,分别输出长期跨模态的一致性得分和短期跨模态的一致性得分。本发明通过长短期的一致性推理,模型可以更好地在语义空间对齐物体的视觉属性和相关地文本指令,以及更好地构建物体与物体之间的相对位置关系,进一步地保证了用户文本与所述图像的跨模态一致性,提高了生成质量。
-
公开(公告)号:CN114943790B
公开(公告)日:2025-04-22
申请号:CN202210579474.0
申请日:2022-05-25
Applicant: 杭州电子科技大学
IPC: G06T11/00 , G06V10/44 , G06V10/80 , G06V10/82 , G06F40/30 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/084 , G06N3/094
Abstract: 本发明公开了基于长短期跨模态一致性推理的迭代文本图像生成方法。首先获取文本指令意图的特征向量表示;然后提取源视觉图像的长期视觉特征信息和短期视觉特征信息;再构建目标图像生成器,通过目标图像生成器输出目标图像;将文本指令信息,长短期源视觉特征和生成的目标图像共同输入到长短期跨模态判别器,分别输出长期跨模态的一致性得分和短期跨模态的一致性得分。本发明通过长短期的一致性推理,模型可以更好地在语义空间对齐物体的视觉属性和相关地文本指令,以及更好地构建物体与物体之间的相对位置关系,进一步地保证了用户文本与所述图像的跨模态一致性,提高了生成质量。
-
公开(公告)号:CN118626669A
公开(公告)日:2024-09-10
申请号:CN202410505385.0
申请日:2024-04-25
Applicant: 杭州电子科技大学
IPC: G06F16/583 , G06V10/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06V30/18 , G06V30/19 , G06V30/41 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种考虑场景文本位置关系的图文检索方法。首先准备数据,进行特征提取;然后进行图片端场景文本的特征融合,得到图片端的场景文本特征;再通过位置关系建模分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征;将两者进行融合,得到图片端的总特征;另一方面提取文本端的总特征最后根据文本总特征和图片总特征之间的相似度,取相似度最高的图片‑文本对作为检索的结果。通过考虑场景文本的位置关系,本发明提供了一种改进的方法,可以提高图文检索的准确性,改善多模态信息融合,并在处理含场景文本的任务中表现出色。这对于多种应用领域都具有重要意义,包括图像检索和图像生成。
-
公开(公告)号:CN118196371A
公开(公告)日:2024-06-14
申请号:CN202410136130.1
申请日:2024-01-31
Applicant: 杭州电子科技大学
IPC: G06V10/25 , G06V10/26 , G06T7/194 , G06N3/045 , G06N3/0895 , G06N3/0464 , G06N3/094 , G06N3/084 , G06N3/096
Abstract: 本发明公开了一种基于背景、前景裁剪互换的目标检测域适应方法。本发明采用半监督学习的师生模型框架,通过教师模型的指数移动平均来进行缓慢更新,使得模型能够从学生模型习得的主要知识中获取信息,从而实现自监督效果。通过引入域辨别器进行对抗训练,增强了模型提取域不变表征的能力,从而提高了鲁棒性。此外,前景‑背景混合实例策略进一步增强了模型的域适应能力,通过裁剪、填充和粘贴操作,有效地创建了带有源域背景的目标域实例图像和带有目标域背景的源域实例图像。最后,采用迭代优化策略,不断改进模型性能,通过计算多个损失函数进行梯度反向传播来更新学生模型,并使用指数移动平均来更新教师模型。
-
-
-
-
-
-
-
-
-