-
公开(公告)号:CN113936309A
公开(公告)日:2022-01-14
申请号:CN202010673108.2
申请日:2020-07-14
Applicant: 南京大学
Abstract: 一种基于面部分块的表情识别方法,包括以下步骤:1)使用面部分块构建全卷积表情识别网络:面部特征提取阶段采用两个互补型卷积网络,一个为基于图片时间信息的表情识别网络,用于提取整张人脸的整体特征,另一个是基于图片几何信息的表情识别网络,用于提取面部分块的局部特征;2)训练阶段:利用表情识别数据集训练网络,使用交叉熵函数作为损失函数,在过程中采用在线难例样本再训练策略;3)测试阶段:将测试图像输入网络,得到表情识别结果。本发明在特征提取阶段,充分利用图片信息和人脸关键点信息,构建两个互补型小型网络,提取人脸的整体特征和面部分块的局部特征,提高人脸表情识别的鲁棒性。
-
公开(公告)号:CN113792594A
公开(公告)日:2021-12-14
申请号:CN202110912484.7
申请日:2021-08-10
Applicant: 南京大学
Abstract: 一种基于对比学习的视频中语言片段定位方法及装置,建立一个对比与兼容匹配网络来建模句子和视频片段的关系,对比与兼容匹配网络首先对句子和视频提取自然语言特征和视频片段特征,然后将两种特征均分别映射到两组联合建模空间里,两组联合建模空间对应的映射函数参数不相同,在联合建模空间使用余弦相似度计算两种特征的相似度;分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练网络;对待定位的视频片段和自然语言语句,输入训练好的对比与兼容匹配网络,得到两组联合建模空间中的相似度,计算得到定位置信度,由定位置信度确定最终定位结果。本发明完整利用语言和视觉的双向监督信号,从而大幅提升视频中的语言片段时序定位的效果。
-
公开(公告)号:CN112183334A
公开(公告)日:2021-01-05
申请号:CN202011038812.7
申请日:2020-09-28
Applicant: 南京大学
Abstract: 一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。
-
公开(公告)号:CN111259779A
公开(公告)日:2020-06-09
申请号:CN202010033743.4
申请日:2020-01-13
Applicant: 南京大学
Abstract: 一种基于中心点轨迹预测的视频动作检测方法,在视频时空动作检测中,将每个动作实例视为动作发起者中心点移动的轨迹,轨迹由中间帧动作的中心点和其他帧动作的中心点相对于中间帧中心点的运动矢量来表示,首先对视频帧序列提取特征,得到中间帧的中心点位置预测及动作类别预测,然后得到中间帧的中心点到其他帧中心点运动轨迹,最后生成各帧中心点的检测框,即得到位置定位,由此得到动作的类别和定位结果,完成视频片段上的时空检测任务。本发明提出了一种无锚框的视频动作检测方法,在视频中沿时序上完成动作的时空定位和分类任务,相比于现有技术带锚框的视频动作检测更加精简高效,体现了鲁棒性和高效性,同时具有很强的扩展性和移植性。
-
公开(公告)号:CN111242033A
公开(公告)日:2020-06-05
申请号:CN202010032964.X
申请日:2020-01-13
Applicant: 南京大学
Abstract: 一种基于视频和文字描述对判别的视频特征学习方法,将视频及与视频匹配的文字描述构成视频-文字对,采用三维卷积网络提取视频特征,采用DistilBERT网络提取文字描述特征,通过训练使视频和其对应的文字描述具有相似的语义特征,使得文字描述自动成为对应视频的标签,训练构建深度学习网络,用于对视频特征的学习。本发明提出了一种利用文字描述信息作为辅助信息进行视频特征学习的方法,能够有效减少人力成本的同时学习到高效的视频特征表示,利用视频和文字描述进行判别化的方法进行视频特征学习的方法,能够更加有效得利用数据集中的所有数据,得到更加具有判别力的视频表征。
-
公开(公告)号:CN110889397A
公开(公告)日:2020-03-17
申请号:CN201911284548.2
申请日:2019-12-13
Applicant: 南京大学
IPC: G06K9/00
Abstract: 一种以人为主体的视觉关系分割方法,首先对于输入的图像,提取物体实例分割并分开一般物体和人体,同时对于输入的图像,提取人脸检测结果;然后将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果并将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入预测网络,得到图像中以人为主语的 视觉关系三元组并根据语言先验统计对结果进行筛选。本发明生成的分割定位结果和关系三元组具有较好的准确度,可以为图像搜索、图像说明、图像问答提供支持。
-
公开(公告)号:CN110660018A
公开(公告)日:2020-01-07
申请号:CN201910860104.2
申请日:2019-09-11
Applicant: 南京大学
Abstract: 一种面向图像的非均匀风格迁移方法,在图像中,检测各个像素的显著性,根据各个像素的显著性采用不同的风格化程度,生成非均匀的图像风格迁移结果。本发明首先对于输入的内容图像的每个像素自动计算显著性,进而设定每个像素的风格化程度,然后分特征图计算风格迁移中的内容损失和风格损失,最小化风格迁移的总损失,生成非均匀的风格迁移结果。本发明解决了图像风格迁移中过度风格化或风格化不足的问题,实现了在突出显著区域内容的同时强烈渲染不显眼区域的风格,在风格化的过程中更好的平衡风格化图像的内容保持程度和风格渲染程度。
-
公开(公告)号:CN108428240A
公开(公告)日:2018-08-21
申请号:CN201810191703.5
申请日:2018-03-08
Applicant: 南京大学
Abstract: 一种对输入信息自适应的显著物体分割方法,首先采用自适应三阈值算法,从显著性图中生成分割种子,然后扩展GrabCut算法,从而能够根据不同的输入信息自适应地初始化算法,并通过自适应GrabCut算法的到显著物体的粗标注图,最后采用自适应初始化分割,优化显著物体轮廓,得到分割结果。本发明采用一个统一框架来处理不同的输入信息,并根据输入信息的变化动态调整方法的模块步骤,从而综合利用了不同输入信息中的物体特征,提高了显著物体分割的准确性和完整性。
-
公开(公告)号:CN103706106B
公开(公告)日:2015-12-30
申请号:CN201310745454.7
申请日:2013-12-30
Applicant: 南京大学
Abstract: 一种基于Kinect的自适应连续动作训练方法,用户通过训练系统来练习自身的动作达到标准动作,所述训练系统包括用户骨架数据获取模块、骨架数据采样模块、快速动作比对模块和显示结果与动作回放模块,骨架数据采样模块对用户骨架数据获取模块获取的用户骨架数据进行采样,并将采样数据送至快速动作比对模块进行分析处理,显示结果与动作回放模块用于显示及回放分析处理得到的数据,其中用户骨架数据获取模块采用微软的Kinect体感设备。本发明方法中,用户本身不需要携带任何传感器或者穿戴有标记传感器的衣物,在不需要教练员的情况下,用户通过该系统可以跟着标准视频动作自主地练习动作,通过系统的不断反馈逐步提高学习的准确度。
-
公开(公告)号:CN103176837A
公开(公告)日:2013-06-26
申请号:CN201310102077.5
申请日:2013-03-27
Applicant: 南京大学
IPC: G06F9/46
Abstract: 基于反转单链表的锁无关消息队列实现方法,用于2线程服务器架构,包括a)基于反转单链表的锁无关消息队列的数据结构,b)基于所述数据结构实现的两个锁无关方法的操作函数:Push函数和Pop函数;2线程间通过所述锁无关消息队列,在所述锁无关方法下进行通讯。本发明在2个线程的服务器架构上,创新性的提出了基于反转单链表的锁无关消息队列的方法,并且没用使用任何昂贵的原子指令,将计算量降低到最低,使得执行效率非常高,通过实验,本发明提出的基于反转单链表的锁无关消息队列在2个线程的服务器架构下,执行速度是传统的基于锁的消息队列的数倍。
-
-
-
-
-
-
-
-
-