-
公开(公告)号:CN116912501A
公开(公告)日:2023-10-20
申请号:CN202310981553.9
申请日:2023-08-04
Applicant: 南京信息工程大学
IPC: G06V10/26 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于注意力融合的弱监督语义分割方法,涉及计算机视觉技术领域,以Vision Transformer为基本网络结构,提出了一个简单而有效的弱监督语义分割框架。在该框架中,首先设计了一个自适应注意力融合模块,对不同层注意力分配不同的权重,融合之后的注意力在保留目标细节的同时也能较好地抑制背景噪声。此外针对注意力中次重要的区域不能够较好的激活目标区域这一问题,设计了一个调制函数用来增大次重要区域的注意力值,有效的突出目标区域。然后使用调制后的注意力对粗糙的类激活图进行优化,此时得到的类激活图中目标区域能够被更加完整且准确的激活,能够较好的解决类激活图的不完全激活问题。
-
公开(公告)号:CN119887928A
公开(公告)日:2025-04-25
申请号:CN202510361017.8
申请日:2025-03-26
Applicant: 南京信息工程大学
IPC: G06T7/73 , G06N3/0455 , G06N3/08 , G06V10/82 , G06V40/10
Abstract: 本发明公开了一种基于增强型拓扑感知网络的三维人体姿态估计方法,该方法包括获取人体动作捕捉数据集;构建增强型拓扑感知网络模型,该模型包括依次连接的特征嵌入块、重复堆叠5次的增强拓扑感知模块和回归头,增强拓扑感知模块包括时空双分支Transformer和混合约束模块;利用数据集对该模型进行训练,得到最终的增强型拓扑感知网络模型;将需要检测的人体图片或视频输入到最终的增强型拓扑感知网络模型中,得到每个关节对应的三维坐标,完成三维人体姿态的估计。本发明生成的三维姿态坐标更接近真实情况,准确性更高。
-
公开(公告)号:CN118571216A
公开(公告)日:2024-08-30
申请号:CN202411060512.7
申请日:2024-08-05
Applicant: 南京信息工程大学
Abstract: 本发明公开了基于语音语料对齐与自适应融合的语音分类方法,方法包括:构建语音分类数据集,并划分为训练集与测试集;构建语音分类网络模型,包括对齐构造模块、语音关联性构建模块、片段重要性挖掘模块、融合检测模块;将融合检测模块输出特征输入分类器以获得预测结果;设计用于优化网络模型参数的损失函数,根据损失函数在训练集上采用Adam优化器实现模型参数的迭代优化与更新;训练完成的语音分类网络模型可实现对语音信号的端对端分类。本发明利用深度学习技术通过语音信号实现自动分类,可应用于不同场景,如对情感、性别、年龄等特征的识别,有助于企业分析用户的情感、性别、年龄,从而提供更人性化、更具针对性的服务。
-
公开(公告)号:CN117807894B
公开(公告)日:2024-06-04
申请号:CN202410217870.8
申请日:2024-02-28
Applicant: 南京信息工程大学 , 中科南京人工智能创新研究院
Abstract: 本发明公开了一种面向足球对战的数据驱动强化学习方法,包括:1、在网络平台上采集足球博弈所需的数据;2、对步骤1的数据进行预处理,得到预处理数据;3、构建离线强化学习网络模型;4、基于预处理数据,对离线强化学习网络模型进行训练及测试,得到训练完成的模型;5、基于训练完成的模型,解决谷歌足球环境中各智能体的决策问题。本发明使用离线强化学习的思想解决谷歌足球环境,使用Transformer强大的预测能力来增加算法效果,不仅可以增加训练速度,对比当前的离线强化学习算法在稀疏环境的效果也有不错的提升。
-
公开(公告)号:CN111445474A
公开(公告)日:2020-07-24
申请号:CN202010449789.4
申请日:2020-05-25
Applicant: 南京信息工程大学
Abstract: 本发明公开了基于双向复注意力深度网络的肾脏CT图像分割方法,包括以下步骤:(1)采集腹部CT图像切片扫描序列,构建数据集;通过标注软件对肾脏区域进行标注,生成对应的标签;(2)将CT图像切片分层处理,并对CT图像中标签进行预处理,将预处理的结果与标签按比例划分为训练集及测试集;(3)构建双向复注意力机制分割网络模型;(4)利用训练集训练双向复注意力机制分割网络参数;(5)然后利用测试集测试,输入已经训练好的U型网络分割模型,分割CT图像切片中需要的肾脏区域,并生成分割后的二值化掩码图。本发明能快速准确确定肾脏区域边界,实现在CT图像中肾脏区域的自动分割,提高分割效率,减轻医生工作量,有广阔应用前景。
-
公开(公告)号:CN119478411A
公开(公告)日:2025-02-18
申请号:CN202411580830.6
申请日:2024-11-07
Applicant: 南京信息工程大学
IPC: G06V10/26 , G06F40/126 , G06V10/74 , G06V10/764 , G06F18/214 , G06F18/22
Abstract: 本发明公开了一种弱监督语义分割方法及相关装置,本发明在生成语义分割伪标签时,根据前景辅助文本特征和图像X特征的相似度,为前景类别名称筛选出的相似单词,构建前景文本提示,帮助视觉语言预训练模型对像素的激活,解决了目标像素激活不充分的问题,根据图像X的常见背景类别名称特征和图像X特征的相似度,筛选出的常见背景类别名称,构建背景文本提示,使视觉语言预训练模型对共现背景的敏感度提高,解决了共现背景的问题。
-
公开(公告)号:CN117611675B
公开(公告)日:2024-04-16
申请号:CN202410086058.6
申请日:2024-01-22
Applicant: 南京信息工程大学
IPC: G06T7/73 , G06V40/20 , G06V10/44 , G06V10/42 , G06V10/52 , G06V10/80 , G06V10/82 , G06V10/774 , G06V10/776 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/084 , G06N3/048
Abstract: 本发明公开了一种三维人体姿态估计方法、装置、存储介质和设备,属于人体姿态估计技术领域,包括获取图像;提取图像中的2D姿态特征;将2D姿态特征输入到训练好的三维人体姿态估计模型中得到三维人体姿态;三维人体姿态估计模型在GraphMLP的基础上进行改进:两个图卷积层堆叠作为上分支,在图卷积层之前加入层归一化;将关节交互模块和全局语义增强模块连接作为下分支,引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;上分支和下分支并联后组成双分支结构,模型包括多个双分支结构;本发明能够提高估计精度。
-
公开(公告)号:CN117611675A
公开(公告)日:2024-02-27
申请号:CN202410086058.6
申请日:2024-01-22
Applicant: 南京信息工程大学
IPC: G06T7/73 , G06V40/20 , G06V10/44 , G06V10/42 , G06V10/52 , G06V10/80 , G06V10/82 , G06V10/774 , G06V10/776 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/084 , G06N3/048
Abstract: 本发明公开了一种三维人体姿态估计方法、装置、存储介质和设备,属于人体姿态估计技术领域,包括获取图像;提取图像中的2D姿态特征;将2D姿态特征输入到训练好的三维人体姿态估计模型中得到三维人体姿态;三维人体姿态估计模型在GraphMLP的基础上进行改进:两个图卷积层堆叠作为上分支,在图卷积层之前加入层归一化;将关节交互模块和全局语义增强模块连接作为下分支,引入局部区域重排模块以和空间MLP并联,然后连接关节交互卷积模块;以U型通道MLP代替通道MLP,轴向平移模块和U型通道MLP并联,然后连接通道交互卷积模块;上分支和下分支并联后组成双分支结构,模型包括多个双分支结构;本发明能够提高估计精度。
-
公开(公告)号:CN117593517A
公开(公告)日:2024-02-23
申请号:CN202410077773.3
申请日:2024-01-19
Applicant: 南京信息工程大学
IPC: G06V10/25 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于互补感知跨视图融合网络的伪装目标检测方法,包括:获取图像数据;构建跨视图融合网络;利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息,通过使用Transformer作为主干,配合之后的融合模块,解决了获取的语义的局部性问题;通过利用跨模态跨视角的互补信息,有效地发现在单个视角中难以识别的伪装线索,获取得到更完整的伪装对象区域。
-
公开(公告)号:CN113537111A
公开(公告)日:2021-10-22
申请号:CN202110841762.4
申请日:2021-07-26
Applicant: 南京信息工程大学
Abstract: 本发明公开了基于双支路深度卷积网络的虹膜分割方法,包括步骤1:构建双支路深度网络分割模型,包括编码层、注意力层、解码层,以及掩码支路和内外边缘支路;步骤2:设置对双支路深度网络分割模型进行约束的损失函数;步骤3:采用Pytorch框架训练双支路深度网络分割模型;步骤4:测试双支路深度网络分割模型;步骤5:输入眼部图像,利用双支路深度网络分割模型进行虹膜分割。本发明能够提高人体复杂虹膜分割的准确度,使得后续的虹膜识别的精度更高。
-
-
-
-
-
-
-
-
-