-
公开(公告)号:CN113052136B
公开(公告)日:2023-10-10
申请号:CN202110437461.5
申请日:2021-04-22
Applicant: 南京工业大学
IPC: G06V20/52 , G06V10/25 , G06V10/762 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种基于Faster RCNN的行人检测方法,属于目标检测和计算机视觉技术领域。本发明针对在行人检测的实际应用中,类别之间的比例严重不平衡,导致预测结果将存在偏差这一问题,基于检测效果较好的Faster RCNN检测网络做出改进。本发明包括:将获取的行人检测数据集进行预处理;单独训练RPN网络,采用改进的K‑meansSMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R‑CNN的训练样本;训练RPN网络和Fast R‑CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。本发明方法降低了漏检率,提高了基于Faster RCNN的行人检测模型的检测性能。
-
公开(公告)号:CN117998168A
公开(公告)日:2024-05-07
申请号:CN202311459214.0
申请日:2023-11-03
Applicant: 南京工业大学
IPC: H04N21/84 , H04N21/44 , G06N3/0464 , G06F16/783 , G06F16/73
Abstract: 本发明提供一种基于检索多模态辅助生成的视频描述方法。该发明包括:获取待描述的视频;从待描述视频中提取多模态特征;所述多模态特征包括运动特征、外观特征;将多模态特征输入视频‑文本检索模块,从语料库中检索与视频内容最相关的多个句子;将多模态特征和检索到的多个句子作为提示输入到动态复制生成模块中;根据多模态特征生成词汇表;通过选择在视频‑文本检索模块中检索到的多个句子与动态复制生成模块中生成的词汇表,共同生成最适合的描述。本发明将基于检索的方法与编码器‑解码器方法进行协调,不仅可以利用检索到的句子中的不同表达,还具有操作灵活且可扩展性,可以生成自然而准确的视频描述内容,取得效果良好,表明了其在视频描述任务中的高效性和良好前景。
-
公开(公告)号:CN117576611A
公开(公告)日:2024-02-20
申请号:CN202311567520.6
申请日:2023-11-22
Applicant: 南京工业大学
IPC: G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06V10/80
Abstract: 本发明公开了一种基于双图和门控融合的视频描述生成方法,包括以下步骤:提取源视频的外观特征、运动特征和对象特征;采用独立的双向循环神经网络,分别对外观特征和运动特征进行时序预处理编码,生成外观时序特征和运动时序特征;采用双图特征增强模块,对外观时序特征、运动时序特征和对象特征进行处理,生成两种高级外观特征和两种高级运动特征;将获取的四种高级特征输入带有多注意力模块和门控融合模块的分级解码器,解码生成视频的描述文本。本发明提出的一种基于双图和门控融合的视频描述生成方法通过采用双图特征增强模块,能够充分利用各帧之间的内容相关性,生成多种高级帧级特征来更准确全面地表征视频的语义,同时通过采用多注意力模块和门控融合模块,能够生成更加准确的上下文特征和更加有效的融合特征,最终通过分级解码器生成更准确的视频描述文本。
-
公开(公告)号:CN117521671A
公开(公告)日:2024-02-06
申请号:CN202311540542.3
申请日:2023-11-17
Applicant: 南京工业大学
IPC: G06F40/30 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/762 , G06V10/82 , G06N3/0455 , G06N3/0442
Abstract: 视频描述是一项具有挑战性的任务,它需要将视觉信息准确地转化为自然语言描述。常见的方法是模拟视觉特征的全局表示或采用对象特征来模拟视觉的局部表示。我们从另一个角度来处理视频字幕任务,并提出了一种基于SGN的改进模型,SGN模型主要利用视频全局特征的细粒度表示,但忽略了视频中关键的局部对象特征。我们在SGN的模型基础上加入了局部对象的注意力机制模块,与SGN模型相比,本发明的工作有如下几个优势:1)为了防止视频帧的冗余和无关视频帧的噪音造成的视觉错误,我们将视频帧进行相似度预处理,帧之间的相似程度可以更好的提高语义分组能力;2)我们利用视觉对象的区域特征能够更好地使得视觉语义更好的适应和表达模型;把视觉的局部特征和全局特征融合在一起,同时也能更好的在时间和空间上建模,从而更好的引导视频字幕的生成。
-
公开(公告)号:CN114927144A
公开(公告)日:2022-08-19
申请号:CN202210546156.4
申请日:2022-05-19
Applicant: 南京工业大学
Abstract: 本发明的一种基于注意力机制和多任务学习的语音情感识别方法,包括如下步骤:步骤1:获取用于语音情感识别的CASIA汉语情感数据集;步骤2:LSTM_att‑MTL语音情感识别模型由特征提取模块、序列建模模块和多任务学习模块组成,将步骤一中语音情感数据输入识别模型进行协同训练;步骤3:由步骤二中通过softmax分类器得到识别结果,计算识别结果与训练集标签的损失函数由此调整损失大小;步骤4:将测试集语音情感数据输入步骤三训练好的网络中,以实现对测试集语音情感数据识别。本发明构建一个LSTM_att‑MTL模型,该模型解决了传统的特征提取方法计算复杂度较高,训练过程效果不好,导致识别性能降低等问题。
-
公开(公告)号:CN118741267A
公开(公告)日:2024-10-01
申请号:CN202410780296.7
申请日:2024-06-17
Applicant: 南京工业大学
IPC: H04N21/84 , H04N21/8549 , H04N21/466
Abstract: 本文提供了一种基于掩码的Transformer网络的端到端的视频描述生成方法,包括步骤:视频内容编码,通过卷积神经网络将输入视频内容帧编码为一组连续的视觉表示;特征提取与编码,利用设计的视频编码器提取视觉特征,并对视觉特征进行编码得到视觉信息编码;事件提案生成,利用锚点偏移机制为视频生成事件提案元组;视频描述生成,通过生成的事件提案元组与视频编码器输出的视觉信息加上掩码函数后,利用Transformer网络的解码器部分对每一个提案事件进行解码并生成描述;最后通过事件计数器,选择合适数量的事件提案描述输出,优化视频描述质量。与现有的使用Transformer网络的视频描述方法相比,通过加入掩码函数可以将模型的接受区域更好地限制在当前片段上,将视觉表示更好地集中在描述当前事件上;通过在输出端口添加了一个事件计数模块,帮助模型输出合适数量的提案描述,优化了生成事件太多或太少造成的糟糕可读性以及信息缺失问题。
-
公开(公告)号:CN117061687A
公开(公告)日:2023-11-14
申请号:CN202310806610.X
申请日:2023-07-03
Applicant: 南京工业大学
IPC: H04N5/278 , H04N21/488 , G06N3/048 , G06N3/047
Abstract: 本发明公开了一种基于并行解码的端到端密集视频字幕生成方法,提出的语义上下文化网络使用语言信息将视觉内容上下文化,改进了之前的仅依靠视觉内容来编码视觉特征。通过并行预测头同时执行事件个数预测、事件定位和字幕生成,略去了先前模型利用先验阈值进行事件提案划分的步骤,从而在保证字幕生成准确性的条件下大大降低了计算复杂度。此外,通过表示组织器组织编码的视频特征和多栈交叉注意,缓解了现有并行体系架构方法在分支点处的瓶颈问题。
-
公开(公告)号:CN114663452A
公开(公告)日:2022-06-24
申请号:CN202210186273.4
申请日:2022-02-28
Applicant: 南京工业大学
Abstract: 本发明公开了一种基于MobileNet‑V2神经网络的机场雾天能见度分类方法,属于深度学习技术领域。包括以下步骤:(1)定点采集雾天机场图像与能见度数据,(2)通过Canny边缘检测算法对数据进行预处理,(3)使用tensorflow框架,搭建基础的MobileNet‑V2神经网络模型并修改模型配置,(4)利用数据集对分类模型进行训练和测试,得到最优分类模型。本发明的优点在于:在预处理图片时加入Canny边缘检测算法,降低了数据的噪声,提高分类准确率;使用了网络参数量更少、同时分类准确率更高的MobileNet‑V2神经网络,既减少了部署资源占用,又提高了能见度分类准确率,同时满足可在移动端设备部署。
-
公开(公告)号:CN117812438A
公开(公告)日:2024-04-02
申请号:CN202311459630.0
申请日:2023-11-03
Applicant: 南京工业大学
IPC: H04N21/84 , H04N21/488 , G06N3/0464 , G06N3/0442 , H04N21/44
Abstract: 本发明实例是涉及了机器学习领域,主要设计了一个视频生成标题的深度学习网络模型,该模型主要包含视觉编码器、字幕解码器和最后训练的评估方法,编码器采用了显著性对象提取特征和长短距离视频帧的特征融合的方法得到中间的主要视觉信息,解码器则采用了传统的双向LSTM进行句子当中下一个单词的预测,而训练采用两种方式,分别是播种阶段和增强阶段,本发明实例由于收集的是不同人工标注的句子,来自不同的人工标注标题可能存在偏差,在训练当中则采用了加权平均的方式求其损失函数,从而建立了该视频描述的模型框架得到最终的评估效果。
-
公开(公告)号:CN113052136A
公开(公告)日:2021-06-29
申请号:CN202110437461.5
申请日:2021-04-22
Applicant: 南京工业大学
Abstract: 本发明涉及一种基于Faster RCNN的行人检测方法,属于目标检测和计算机视觉技术领域。本发明针对在行人检测的实际应用中,类别之间的比例严重不平衡,导致预测结果将存在偏差这一问题,基于检测效果较好的Faster RCNN检测网络做出改进。本发明包括:将获取的行人检测数据集进行预处理;单独训练RPN网络,采用改进的K‑meansSMOTE算法平衡正负样本,使用RPN网络提取训练集上的候选区域作为Fast R‑CNN的训练样本;训练RPN网络和Fast R‑CNN网络,共享卷积层特征,获得训练好后的FasterRCNN行人检测模型;将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型,得到最终的检测结果。本发明方法降低了漏检率,提高了基于Faster RCNN的行人检测模型的检测性能。
-
-
-
-
-
-
-
-
-