一种混合CNN与Transformer的域泛化注视估计算法

    公开(公告)号:CN117173773A

    公开(公告)日:2023-12-05

    申请号:CN202311328554.X

    申请日:2023-10-14

    Abstract: 本发明属于计算机视觉领域,提供了混合CNN与Transformer的域泛化注视估计算法,包括以下步骤:首先,采用ResNest‑50与ViT双流特征提取网络进行特征提取并使用ResNest‑50分支的多层融合特征作为ViT网络的输入以代替使用全脸图像作为输入;随后,为缓解ResNest分支与ViT分支的输出特征的维度和语义差异,特征融合增强模块(FFEM)被设计用于融合双分支的输出特征;之后,一种基于对抗策略的域泛化方法被提出用来提升模型的跨域性能。一个额外的图像重建任务被设计用来与注视估计任务进行对抗性学习,并使用互信息神经估计器(MINE)来计算图像重建任务和注视估计任务的特征空间的互信息以解耦注视无关特征(个体外观等)与注视相关特征;最后利用混合损失函数进行深度监督训练。

    一种基于光谱感知和注意力机制的跨模态行人重识别方法

    公开(公告)号:CN116798070A

    公开(公告)日:2023-09-22

    申请号:CN202310537794.4

    申请日:2023-05-15

    Inventor: 葛斌 许诺 夏晨星

    Abstract: 本发明涉及一种基于光谱感知和注意力机制的跨模态行人重识别方法,目标是解决行人重识别领域中RGB图像和红外图像之间的跨模态差异问题。本发明通过额外增加一组由可见光、红外和齐次增强得到的灰度图像组成的输入,用两组输入图像对网络模型进行联合训练,进一步加强了对有限图像中特征的利用,提高了模型匹配的精度;采用单流网络与双流网络相结合的方式,用以提取和合并不同模态图像的特征;然后从多模态分类和多视图检索的角度解决三模态特征学习。最后利用注意力机制,获取行人图像更丰富的局部特征来实现模态信息的交互融合,进而提升跨模态行人重识别效果。

    一种基于多路径特征提取和多尺度特征融合的单目深度预测方法

    公开(公告)号:CN116758130A

    公开(公告)日:2023-09-15

    申请号:CN202310755900.6

    申请日:2023-06-21

    Abstract: 本发明属于计算机视觉领域中的一个基础研究课题,提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,并构建了一种全新的编码器‑解码器框架。在编码器部分,本发明结合卷积神经网络与Transformer各自的优点,采用多路径结构在局部和全局区域同时进行推理,实现了精细和粗糙的多路径特征提取,获得了多样化的多尺度特征表示。特别地,空间金字塔池化模块(PSP)利用多尺度自适应池化操作来提取不同尺度下的语义信息,从而初始化解码器特征。在解码器部分,本发明引入了精心设计的编码器和解码器特征交互模块(EDFI),通过跳跃连接和双路径交叉自我注意机制,充分自适应地增强和融合全局上下文语义信息和精细的局部边缘信息。本发明充分利用了卷积神经网络的强大空间归纳和由Vision Transformer模型实现的全局信息推理,同时,结合灵活的轻量级解码器,本发明能够以更细粒度和更高的准确度完成深度预测。

    一种基于不确定性的多阶段引导的小目标半监督学习检测方法

    公开(公告)号:CN116563738A

    公开(公告)日:2023-08-08

    申请号:CN202310670520.2

    申请日:2023-06-08

    Abstract: 本发明涉及计算机视觉领域,具体设计了一种基于不确定性的多阶段引导的小目标半监督学习检测方法,其方法包括:构建训练和测试该任务的数据集;将数据集的图像进行预处理操作,同时将训练集划分,一部分有标注信息,另一部分则没有标注;构建半监督学习下的小目标检测模型;将有标记的图片送入初始检测模型中,得到可以为无标注的图片产生伪标签的教师检测模型;根据生成伪标签的可靠性,将带有伪标签信息的图片逐步送入学生网络中,和预先存在标注的图片一起训练学生网络,最终输出检测结果。本发明引入多尺度感知融合模块和盒子抖动的方法,同时采用新的衡量标准来帮助学生网络选择更为丰富可靠的伪标签,从而进一步提升检测性能。

    一种基于Transformer的跨模态融合网络的RGB-D语义分割方法

    公开(公告)号:CN116452805A

    公开(公告)日:2023-07-18

    申请号:CN202310401129.2

    申请日:2023-04-15

    Abstract: 发明名称:一种基于Transformer的跨模态融合网络的RGB‑D语义分割方法摘要:本发明提供了一种基于Transformer的跨模态融合的RGB‑D语义分割方法,所述方法利用RGB图像和Depth图像的多模态数据,提取跨模态特征用于计算机视觉中的语义分割任务。本发明的贡献主要在于通过考虑Depth特征出发,意识到深度传感器获得的深度学习存在不可靠信息(如,一些深度传感器读取到的深色的物体或者反光的表面的读数往往不准确或者存在空洞),提出利用双边滤波来加强Depth特征的作用,并通过一个跨模态残差融合模块有效的融合RGB特征和Depth特征。通过提出的方法可以有效地处理RGB图像语义分割所遭遇的挑战(很难区分具有相似颜色和纹理的实例),并且可以有效的利用Depth图像。

    一种煤炭开采输运工作的模拟分析实验设备

    公开(公告)号:CN115951034A

    公开(公告)日:2023-04-11

    申请号:CN202211639746.8

    申请日:2022-12-20

    Abstract: 本发明涉及煤矿开采模拟设备技术领域,具体公开一种煤炭开采输运工作的模拟分析实验设备,所述实验设备包括试验台,所述试验台上水平安装有托板,实验设备还包括:试样块,所述试样块放置在托板上;平面驱动装置,用于模拟煤炭输运工作,所述平面驱动装置设置在试验台上,平面驱动装置上设置有伺服电机,伺服电机输出端设置有螺杆;所述试样块上设置有螺纹孔,螺纹孔与螺杆连接,用于模拟煤炭开采工作。本发明实验设备,采用平面驱动装置,进行伺服电机的平面移动,使伺服电机输出端的螺杆对准试样块上的螺纹孔,通过螺杆与螺纹孔连接,进行试样块连接固定,取出试样块,进行模拟开采输送实验,托板的位置可切换,进行重复模拟实验。

    一种基于自适应跨模态融合机制和深度注意力网络的RGB-D显著性目标检测方法

    公开(公告)号:CN114332559A

    公开(公告)日:2022-04-12

    申请号:CN202111565872.9

    申请日:2021-12-17

    Abstract: 本发明属于计算机视觉领域,提供了一种自适应跨模态融合机制和深度注意力网络的RGB‑D显著性目标检测方法,包括以下步骤:1)准备RGB‑D显著性目标检测数据集,该数据集包括三个部分,分别是RGB图像I、对应的深度(Depth)图D像以及显著性分割图S,进一步可划分为训练集和测试集;2)设计深度图质量感知模块,并计算输入该模块的深度图的质量值,高于该值的深度图作为训练样本,否则过滤掉该深度图;3)分别建立用于提取RGB特征和Depth特征的神经网络模型,并使用VGG16网络用于提取特征;4)建立计算深度显著性先验和背景先验的计算方式;5)建立RGB特征和Depth特征的高效互补的自适应跨模态特征融合方案,并整合多尺度融合特征,得到预测结果。

Patent Agency Ranking