-
公开(公告)号:CN119228802B
公开(公告)日:2025-02-11
申请号:CN202411754912.8
申请日:2024-12-03
Applicant: 南京邮电大学
IPC: G06T7/00 , G06V20/64 , G06V20/70 , G06V10/25 , G06V10/26 , G06V10/44 , G06V10/77 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本申请公开了多生牙自动检测方法、装置、存储介质及电子设备。该方法包括:获取三维图像,将三维图像进行预处理得到多个图像块;将图像块输入到训练好的两阶段深度注意力网络中进行识别,得到三维图像中包含多生牙的概率值;其中,两阶段深度注意力网络包括定位子网络和分类子网络;将图像块输入到训练好的两阶段深度注意力网络中进行识别,包括:将图像块输入到定位子网络中得到矩形定位框,将矩形定位框输入到分类子网络中得到图像块中包含多生牙的概率值。本申请能够加快多生牙的检测速度,提升分类精度。
-
公开(公告)号:CN117408908B
公开(公告)日:2024-03-15
申请号:CN202311725816.6
申请日:2023-12-15
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于深度神经网络的术前与术中CT图像自动融合方法,涉及计算机视觉预测技术领域,包括:采集脊柱微创术前和术后同一病人的三维C形臂CT图像,对图像的腰椎区域分别进行标注;根据标注的图像构建基于注意力机制的三维U型分割网络模型,利用模型从术前和术后CT图像中自动分割出腰椎区域;利用快速全局点云配准算法对术前和术后CT图像中自动分割出的腰椎区域进行配准,并获得术前CT图像和术后CT图像间的形变矩阵;通过形变矩阵将术前CT图像转换到术后CT图像的坐标空间;本发明实现源点云和目标点云的快速精确配对,能够应用于基于图像引导的脊柱微创手术系统,以提高手术前和手术后C形臂CT图像自动融合精度。
-
公开(公告)号:CN116258989A
公开(公告)日:2023-06-13
申请号:CN202310038133.7
申请日:2023-01-10
Applicant: 南京邮电大学
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06V10/774 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了基于文本与视觉的时空关联型多模态情感识别方法、系统。首先将短视频样本裁剪成一定大小的图像块,使用卷积神经网络提取视觉特征,降维后输入到多层自注意力混合网络中,提取时空维度的深层视觉情感特征;随后用词向量模型将短视频中的文本对话转换为词向量序列,输入到自注意力神经网络中,提取深层文本情感特征;最后将视觉与文本深层情感特征进行拼接,添加全连接神经网络,利用分类器预测最终结果。本发明可以根据视频样本中图像在时间与空间维度的变化,高效地利用多头自注意力网络进行深层特征提取,尽可能地减少时间与空间特征融合过程中的信息损失,最后融合文本模态的情感特征,提高模态分类的准确率。
-
公开(公告)号:CN112818862B
公开(公告)日:2022-08-26
申请号:CN202110141812.8
申请日:2021-02-02
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多源线索与混合注意力的人脸篡改检测方法与系统,该方法首先通过卷积神经网络、噪声滤波器以及高通滤波器提取多源线索特征,然后利用特征提取骨干网络进一步来提取图像特征;同时为了增加精度,在骨干网络中引入通道与空间的混合注意力机制。将骨干网络中高层级的特征图进行融合生成多尺度特征图,并在多尺度特征融合网络中利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的特征缺失以提升精度;最终将多尺度信息送入预测网络中,输出预测信息。本发明利用目标检测手段完成人脸篡改检测的任务,改善了高质量的篡改图像检测的精度问题。
-
公开(公告)号:CN112085738B
公开(公告)日:2022-08-26
申请号:CN202010816515.4
申请日:2020-08-14
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于生成对抗网络的图像分割方法,首先,构建以VGG为原型的深度残差网络,作为基本的图像语义分割网络,以步长为2的卷积层执行下采样,网络以平均池化和具有Softmax的1000路全连接层结束,加重层数量为101,由预测层输出预测类别;然后,构建生成器,采用4层卷积和4层反卷积结构,以预测层输出和原始图像作为输入,产生对应于原始图像的重建图像;最后,构建判别器,采用4卷积层,除最后一层均使用ReLU作为激活函数,以原始图像和生成器输出的重建图像作为输入。本发明在能获取更高级别的特征同时又避免计算量过大;将基本分割网络产生的分割损失纳入生成对抗网络总损失函数使得模型参数的学习更加准确,分割结果更加精细。
-
公开(公告)号:CN112818862A
公开(公告)日:2021-05-18
申请号:CN202110141812.8
申请日:2021-02-02
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多源线索与混合注意力的人脸篡改检测方法与系统,该方法首先通过卷积神经网络、噪声滤波器以及高通滤波器提取多源线索特征,然后利用特征提取骨干网络进一步来提取图像特征;同时为了增加精度,在骨干网络中引入通道与空间的混合注意力机制。将骨干网络中高层级的特征图进行融合生成多尺度特征图,并在多尺度特征融合网络中利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的特征缺失以提升精度;最终将多尺度信息送入预测网络中,输出预测信息。本发明利用目标检测手段完成人脸篡改检测的任务,改善了高质量的篡改图像检测的精度问题。
-
公开(公告)号:CN107424161B
公开(公告)日:2021-03-02
申请号:CN201710274710.7
申请日:2017-04-25
Applicant: 南京邮电大学
IPC: G06T7/13
Abstract: 本发明公开了一种由粗至精的室内场景图像布局估计方法,首先基于Canny边缘检测结果,设置阈值获得相应长直线段,对长直线段进行方向上的归类并估计消失点,进而生成大量布局候选项;然后,构建以VGG‑16为原型的全卷积神经网络预测信息化边界图,并将fc7层提取特征经Softmax分类器获得布局类别信息,两者融合生成全局特征进行布局候选项的粗选取;最后,建立布局估计的结构化回归模型,在提取线段、几何上下文、法向量和深度等信息的基础上,经几何积分图像形成区域级特征,实现布局候选项到特征域的映射的同时进行特征参数的学习,从而获得布局估计参数模型。该方法提高了布局估计的准确率,在室内场景的3D重建中具有重要的应用价值。
-
公开(公告)号:CN109145712A
公开(公告)日:2019-01-04
申请号:CN201810686822.8
申请日:2018-06-28
Applicant: 南京邮电大学
CPC classification number: G06K9/00744 , G06K9/00765 , G06K9/627 , G06K9/6288
Abstract: 本发明公开了一种融合文本信息的GIF短视频情感识别方法及系统,该方法首先利用3D卷积神经网络提取出GIF短视频中序列特征,同时利用卷积神经网络提取出序列中图像视觉特征;再采用卷积长短时记忆递归神经网络技术解码二者融合后的高层语义特征,计算出情感分类概率分布矩阵,将进行区间映射得到视频部分的情感得分。接着,从注释文本中的单词筛选出蕴含情感信息的词汇,采用情感打分工具计算出文本情感得分。最后,将视频情感得分与文本情感得分赋予不同的权重相加并做有效性判别,对GIF短视频进行情感分类。本发明能有效关注GIF视频中图像的情感信息,同时兼顾视频流的时序特征,并且文本信息与视频信息融合,提高了GIF视频情感分类的准确度和鲁棒性。
-
公开(公告)号:CN105844292A
公开(公告)日:2016-08-10
申请号:CN201610158608.6
申请日:2016-03-18
Applicant: 南京邮电大学
IPC: G06K9/62
CPC classification number: G06K9/6249 , G06K9/6269
Abstract: 本发明公开了一种基于条件随机场和二次字典学习的图像场景标注方法,针对训练集图像进行超像素区域过分割,获取每幅图像的超像素过分割区域;提取各个超像素过分割区域的特征,并结合基准标注图像构建超像素标签池,利用超像素标签池训练出支持向量机分类器,计算超像素一元势能;计算相邻超像素成对项势能;借助训练集中全局性的过分割超像素区域的类别统计,以构建应用于类别统计直方图的分类器作为分类成本,基于每一类超像素区域内关键点特征的稀疏表示的稀疏编码子之和的直方图统计作为该CRF模型的高阶势能,分别以类字典、共享字典两种判别字典经过二次稀疏表示优化稀疏编码子,更新字典和CRF参数与分类器参数;本发明提高了标注精度。
-
公开(公告)号:CN104598890A
公开(公告)日:2015-05-06
申请号:CN201510051252.1
申请日:2015-01-30
Applicant: 南京邮电大学
CPC classification number: G06K9/00369 , G06K9/6223 , G06K9/6269 , G06T7/251 , G06T2207/10016 , G06T2207/30196
Abstract: 本发明公开了一种基于RGB-D视频的人体行为识别方法,属于计算机视觉的行为识别技术领域。该方法根据RGB-D视频中不同类别的人体行为动作具有不同的运动信息、几何信息和纹理信息,对RGB-D摄像机获取的RGB-D视频分别提取稠密MovingPose特征、SHOPC特征和HOG3D特征,采用边缘限制的多核学习方法对三种特征进行特征融合,最后采用Exemplars-SVM线性分类器对人体行为动作进行判决。相比现有技术,本发明中所采用的提取的三种特征融合后具有光照不变性、尺度不变性和视角不变性,对动作执行者之间的外形差异和行为动作过程差异都具有显著的鲁棒性,在一定程度上能提高人体行为动作的识别准确度。
-
-
-
-
-
-
-
-
-