-
公开(公告)号:CN112183334A
公开(公告)日:2021-01-05
申请号:CN202011038812.7
申请日:2020-09-28
Applicant: 南京大学
Abstract: 一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。
-
公开(公告)号:CN110889397A
公开(公告)日:2020-03-17
申请号:CN201911284548.2
申请日:2019-12-13
Applicant: 南京大学
IPC: G06K9/00
Abstract: 一种以人为主体的视觉关系分割方法,首先对于输入的图像,提取物体实例分割并分开一般物体和人体,同时对于输入的图像,提取人脸检测结果;然后将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果并将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入预测网络,得到图像中以人为主语的 视觉关系三元组并根据语言先验统计对结果进行筛选。本发明生成的分割定位结果和关系三元组具有较好的准确度,可以为图像搜索、图像说明、图像问答提供支持。
-