-
公开(公告)号:CN119151787A
公开(公告)日:2024-12-17
申请号:CN202411639467.0
申请日:2024-11-18
Applicant: 南京信息工程大学
IPC: G06T3/4053 , G06V10/40 , G06V10/80 , G06N3/045
Abstract: 本发明公开了一种基于跨尺度令牌交互的Transformer单图像超分辨率重建方法,包括:1、获取低分辨率图像,使用浅层特征提取模块SFE从低分辨率图像中提取初步的浅层特征;2、基于若干深度特征提取块DFE构建主干网络,其中,深度特征提取块DFE包含若干跨尺度令牌交互Transformer层,将浅层特征输入主干网络中提取深层特征;3、将提取的浅层特征和深层特征融合后重建得到高分辨率图像。本发明实现不同层级令牌信息之间的交互,充分挖掘和融合图像中的跨尺度信息,并加强全局信息的交互。设计多尺度信息提取模块首先对原始像素令牌进行池化,生成区域令牌和全局令牌,从而实现多尺度信息的有效提取。
-
公开(公告)号:CN119129756A
公开(公告)日:2024-12-13
申请号:CN202411639487.8
申请日:2024-11-18
Applicant: 南京信息工程大学
IPC: G06N5/04 , G06V10/764 , G06V10/40 , G06V10/80 , G06V10/24
Abstract: 本发明公开了一种基于情感融合与特征权重引导的幽默风格图像描述方法,首先采用多层卷积与池化操作对输入图像提取其幽默特征向量;同时给定具有人类情感信息的情感图像,使用卷积神经网络构建情感标志向量;将幽默特征向量与情感标志向量实施特征融合组成联合特征向量,通过线性组合变换实现维度对齐后映射进入长短期记忆网络中。在每个时间步捕获与特定输入位置相关的幽默视觉信息,逐个生成单词并最终组成完整的图像描述。对于所生成的图像描述,综合考虑幽默图像描述的组织数据,对该幅被描述图像的联合特征进行权重强化引导。以生成图像描述的幽默程度为收益对模型进行参数微调,从而提高模型对幽默风格图像描述的细粒度生成。
-
公开(公告)号:CN117934890B
公开(公告)日:2024-06-11
申请号:CN202410328101.5
申请日:2024-03-21
Applicant: 南京信息工程大学
IPC: G06V10/762 , G06V10/42 , G06V10/44 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明提供基于局部和全局邻居对齐的原型对比图像聚类方法及系统,涉及机器学习和图像处理领域。该方法包括提取原始数据集特征;在特征上执行k‑means初始化聚类中心,获取聚类分配概率;对经过两种不同变换后的数据集进行分组训练直至整个数据集,提取变换后图像数据集特征;获取每个训练批次的原型,并计算原型对比损失;获取变换后特征的全局和局部邻居,并将变换后的特征与邻居对齐,计算邻居对齐损失;优化网络,并更新全局邻居;重复上述步骤,直到满足迭代次数,输出聚类分组结果。本发明方法不仅避免了对比学习中类别冲突的问题,而且使得不同的类在空间中均匀分布;同时,基于局部和全局邻居对齐策略可以获得更丰富的语义信息。
-
公开(公告)号:CN117994823A
公开(公告)日:2024-05-07
申请号:CN202410406482.4
申请日:2024-04-07
Applicant: 南京信息工程大学
IPC: G06V40/10 , G06V10/764 , G06V10/80 , G06V10/82 , G06V10/40 , G06N3/0455 , G06N3/0464 , G06V10/74
Abstract: 本发明公开了一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法,包括以下步骤:(1)获取多种数据集(2)构建掩码语义信息提取器;(3)构建用于处理图片信息,进行提取特征的Transformer骨干网络;(4)构建用于提取细粒度部分特征的分层特征聚合模块;(5)构建用于提取判别性全局特征的多特征补偿模块;(6)合并步骤(2)‑(5),构建基于掩码先验以及分层聚合Transformer的遮挡行人重识别框架;(7)构建用于遮挡行人重识别模型的损失函数;(8)加载由IMAGENET训练的预训练权重,利用Occluded‑Duke数据集的训练集对模型进行训练,测试集对得到的模型进行测试,寻找最优模型;本发明引导模型关注非遮挡身体部位以及提取判别性信息用于行人匹配。
-
公开(公告)号:CN117935172A
公开(公告)日:2024-04-26
申请号:CN202410325387.1
申请日:2024-03-21
Applicant: 南京信息工程大学
IPC: G06V20/52 , G06V10/20 , G06V10/774 , G06V10/776 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于光谱信息过滤的可见光红外行人重识别方法及系统,所述方法包括以下步骤:(1)获取原始数据,划分训练集、验证集和测试集并进行预处理;(2)将得到的批量训练样本随机组成跨模态图像对;(3)基于PyTorch搭建三分支行人重识别网络并设置训练参数;(4)将训练时期分为V‑T和V‑I两个阶段,当处于V‑T阶段时,计算语义一致损失更新网络权重,将过渡模态作为过滤条件,从可见光模态中保留与红外模态最为相关的光谱信息;(5)当处于V‑I阶段时计算级联聚合损失,更新网络权重,直接在可见光和红外模态间实现模态对齐,提取模态共享表示;使用验证集验证算法的精度,保存最优精度的网络权重。
-
公开(公告)号:CN117934890A
公开(公告)日:2024-04-26
申请号:CN202410328101.5
申请日:2024-03-21
Applicant: 南京信息工程大学
IPC: G06V10/762 , G06V10/42 , G06V10/44 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明提供基于局部和全局邻居对齐的原型对比图像聚类方法及系统,涉及机器学习和图像处理领域。该方法包括提取原始数据集特征;在特征上执行k‑means初始化聚类中心,获取聚类分配概率;对经过两种不同变换后的数据集进行分组训练直至整个数据集,提取变换后图像数据集特征;获取每个训练批次的原型,并计算原型对比损失;获取变换后特征的全局和局部邻居,并将变换后的特征与邻居对齐,计算邻居对齐损失;优化网络,并更新全局邻居;重复上述步骤,直到满足迭代次数,输出聚类分组结果。本发明方法不仅避免了对比学习中类别冲突的问题,而且使得不同的类在空间中均匀分布;同时,基于局部和全局邻居对齐策略可以获得更丰富的语义信息。
-
公开(公告)号:CN119273900A
公开(公告)日:2025-01-07
申请号:CN202411642287.8
申请日:2024-11-18
Applicant: 南京信息工程大学
IPC: G06V10/25 , G06N3/0464 , G06N3/08 , G06V10/22 , G06V10/52 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种基于伪框引导的边界框细化定向目标检测方法,包括:1、将图像输入骨干网络和金字塔网络,提取多尺度特征图。2、根据真实边界框的尺度大小,将其划分到对应的特征层级上,通过可变形卷积学习代表点生成自适应点集。3、生成的代表点使用评估模块(APAA)对代表点进行评估和动态分配,并输入伪框引导边界框细化模块(PGBR)进一步优化。4、使用RRoI特征提取器提取特征并对其进行编码,预测对象类别概率和细化预测边界框。本发明通过边界框细化模块的加入,可以更好的实现边界框定位的效果;同时使用了不同的边界框表示方式,这样可以有效的定位和标识边界框,解决了传统边界框表示中的边界不连续问题。
-
公开(公告)号:CN118692114B
公开(公告)日:2024-10-29
申请号:CN202411163106.3
申请日:2024-08-23
Applicant: 南京信息工程大学
IPC: G06V40/10 , G06V20/52 , G06V10/762 , G06V10/44 , G06N3/0455 , G06N3/0464 , G06N3/088
Abstract: 本发明公开了一种基于Transformer和融合聚类的对比学习无监督行人重识别方法,包括以下步骤:(1)监控摄像头拍摄行人视频上传至云端服务器,服务器对行人进行跟踪并裁剪图片;(2)使用Transformer网络提取行人图像特征;(3)融合聚类模块对提取的图像特征进行融合聚类;(4)利用多级对比学习模块获取实例之间的关系;本发明采用自动化的方式对行人进行识别,减少了人工走访调查的工作量。
-
公开(公告)号:CN117935172B
公开(公告)日:2024-06-14
申请号:CN202410325387.1
申请日:2024-03-21
Applicant: 南京信息工程大学
IPC: G06V20/52 , G06V10/20 , G06V10/774 , G06V10/776 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于光谱信息过滤的可见光红外行人重识别方法及系统,所述方法包括以下步骤:(1)获取原始数据,划分训练集、验证集和测试集并进行预处理;(2)将得到的批量训练样本随机组成跨模态图像对;(3)基于PyTorch搭建三分支行人重识别网络并设置训练参数;(4)将训练时期分为V‑T和V‑I两个阶段,当处于V‑T阶段时,计算语义一致损失更新网络权重,将过渡模态作为过滤条件,从可见光模态中保留与红外模态最为相关的光谱信息;(5)当处于V‑I阶段时计算级联聚合损失,更新网络权重,直接在可见光和红外模态间实现模态对齐,提取模态共享表示;使用验证集验证算法的精度,保存最优精度的网络权重。
-
公开(公告)号:CN117934891B
公开(公告)日:2024-06-07
申请号:CN202410343857.7
申请日:2024-03-25
Applicant: 南京信息工程大学
IPC: G06V10/762 , G06V10/40 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/042
Abstract: 本发明提供一种基于图结构的图像对比聚类方法及系统,涉及机器学习和图像处理领域。该方法包含以下步骤,获取原始图像数据集,对原始图像数据集进行两种不同的变换,分获取变换后的数据集的特征和对比特征,计算实例级对比损失,获取并更新每个样本的邻居,获取邻接矩阵并加上不同的随机掩码,构建图结构数据,输入到图神经网络聚合特征与其邻居特征,并获得聚类分配,计算簇级对比损失,通过实例级对比损失和簇级对比损失优化特征提取网络、对比网络和图卷积神经网络,重复上述步骤,直到满足迭代次数,输出聚类分组结果;本发明方法不仅能获取图像的语义信息,也能有效挖掘图像数据之间的结构信息。
-
-
-
-
-
-
-
-
-