-
公开(公告)号:CN115827881A
公开(公告)日:2023-03-21
申请号:CN202111088382.4
申请日:2021-09-16
IPC: G06F16/36 , G06F16/33 , G06F40/211 , G06F40/289 , G06F40/30 , G06V30/14 , G06Q50/14
Abstract: 一种基于旅游知识图谱的多模态旅游信息定位式检索方法,根据图文游记和旅游视频混合数据库中的多模态数据构建带有权值的旅游知识图谱,并在构建和更新过程中保存实体和实体间关系对数据源的语义位置索引,用户进行文本搜索时对文本抽取搜索实体和搜索实体间的关系,映射到知识图谱的一个子图,对该子图增强扩展后根据对应索引返回检索结果。本发明对检索文本返回的结果同样是多模态的,并且指向语义对应的位置。对于数据库中的游记数据,返回增强后子图对应的文本和图片及所在游记;对于数据库中的旅游视频数据,返回增强后子图对应的视频片段和整个视频。本发明解决了多模态数据难以有效管理,且旅游数据检索难以定位到目标语义单位的问题。
-
公开(公告)号:CN115827882A
公开(公告)日:2023-03-21
申请号:CN202111088394.7
申请日:2021-09-16
IPC: G06F16/36 , G06F16/33 , G06F40/211 , G06F40/295 , G06F40/30 , G06V30/14 , G06Q50/14
Abstract: 一种基于多模态旅游大数据的知识图谱构建方法,从多模态的旅游数据抽取实体和实体间的关系,首先进行数据获取,从旅游垂直网站获取半结构化城市、景点数据,以及非结构化的游记数据,从视频网站获取非结构化的旅游视频;然后进行数据预处理,对游记文本数据进行文本分析,对游记图片数据进行物体识别,对视频数据进行物体跟踪和场景文字识别,并对场景文字进行文本分析;接着从文本分析后的游记文本、视频场景文字文本和图片物体、视频物体中抽取实体;最终根据结构关系和句法依存关系挖掘实体间语义关系,从而构建旅游知识图谱。本发明利用互联网旅游大数据构建知识图谱,能够有效地管理和利用多种模态的数据,为检索、推荐等旅游服务提供支持。
-
公开(公告)号:CN115828919A
公开(公告)日:2023-03-21
申请号:CN202111089506.0
申请日:2021-09-16
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06N3/0464 , G06N3/08
Abstract: 一种基于图像和文本特征抽取的游记图文匹配方法,对于图像特征抽取,首先使用深度网络从图像中检测物体,导出图像特征并对每个物体提取物体特征,然后联合物体特征和图像特征进行编码;对于文本特征抽取,首先对文本进行分词,然后使用深度网络分别从词语层面和语句层面导出文本特征,接着联合词语特征和语句特征进行编码;最后对编码后的图像特征和文本特征计算余弦相似度,根据图文的相似度设定阈值,在文本对应位置选择图片插入。本发明解决游记编辑时图片选择和插入需要花费大量精力的问题。
-
公开(公告)号:CN112183334B
公开(公告)日:2024-03-22
申请号:CN202011038812.7
申请日:2020-09-28
Applicant: 南京大学
Abstract: 一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。
-
公开(公告)号:CN111985505A
公开(公告)日:2020-11-24
申请号:CN202010848981.0
申请日:2020-08-21
Applicant: 南京大学
Abstract: 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置,从输入图像中提取物体,并两两组合为物体对,计算相应的物体特征和联合特征,生成物体和物体对的视觉特征、语义特征和位置特征,经线性变换得到物体和物体对的兴趣特征,由此预测物体对兴趣度,并将物体对关系谓语的视觉特征、语义特征和位置特征经线性变换得到关系谓语的兴趣特征,预测物体间的关系谓语兴趣度;最后将物体对兴趣度和关系谓语兴趣度相结合得到视觉关系兴趣度,兴趣度高的视觉关系即为最终检测出的兴趣视觉关系。本发明在检测视觉关系的过程中能够以语义重要性为标准更合理地预测关系兴趣度,找出能够准确传达图像主体内容的兴趣视觉关系,具有良好的广泛性与实用性。
-
公开(公告)号:CN111985505B
公开(公告)日:2024-02-13
申请号:CN202010848981.0
申请日:2020-08-21
Applicant: 南京大学
IPC: G06V10/44 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06T7/73 , G06V10/82
Abstract: 达图像主体内容的兴趣视觉关系,具有良好的广一种基于兴趣传播网络的兴趣视觉关系检 泛性与实用性。测方法及装置,从输入图像中提取物体,并两两组合为物体对,计算相应的物体特征和联合特征,生成物体和物体对的视觉特征、语义特征和位置特征,经线性变换得到物体和物体对的兴趣特征,由此预测物体对兴趣度,并将物体对关系谓语的视觉特征、语义特征和位置特征经线性变换得到关系谓语的兴趣特征,预测物体间的关系谓语兴趣度;最后将物体对兴趣度和关系谓语兴趣度相结合得到视觉关系兴趣度,兴趣度高的视(56)对比文件陈方芳.基于目标对筛选和联合谓语识别的视觉关系检测《.中国优秀硕士学位论文全文数据库 信息科技辑》.2019,(第8期),I138-657.Yu, Fan,等.Visual Relation ofInterest Detection《.MM '20: PROCEEDINGSOF THE 28TH ACM INTERNATIONAL CONFERENCEON MULTIMEDIA》.2020,第1386-1394页.
-
公开(公告)号:CN113936236A
公开(公告)日:2022-01-14
申请号:CN202111116334.1
申请日:2021-09-23
Applicant: 南京大学
IPC: G06V20/40 , G06V40/10 , G06V40/16 , G06V10/25 , G06V10/26 , G06V10/46 , G06V10/764 , G06K9/62 , G06F40/211 , G06F40/295 , G06F40/30
Abstract: 一种基于多模态特征的视频实体关系及交互识别方法,对影片中实体之间的交互进行预测识别:对影片根据场景划分为中片段,对中片段分别向上聚合为长片段,向下分割为短片段,对于每个中片段,将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征,取平均作为长片段的特征预测长片段中的实体关系,并将该平均特征连接到每一个中片段特征,用于预测对应的中片段中的实体之间的互动,实体关系和实体互动同时进行预测,并联合训练对应的识别网络。本发明将长视频分为三种长度的视频,对长片段预测实体关系,对中片段预测实体交互和场景状态,对短片段预测实体交互,构建出实体关系图和互动图。
-
公开(公告)号:CN119068561A
公开(公告)日:2024-12-03
申请号:CN202310625569.6
申请日:2023-05-30
Applicant: 南京大学
IPC: G06V40/70 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 一种基于多模态情绪融合的视频对话风格识别方法,对电影片段中人物的对话风格进行预测识别:利用不同的特征提取模型对视频提取视觉、听觉和文本特征,再使用一个预训练的多模态情绪模型提取视觉情绪特征、听觉情绪特征和文本情绪特征,利用多头注意力机制将视觉特征与视觉情绪特征融合、听觉特征与听觉情绪特征融合以及文本特征与文本情绪特征融合,将处理后的带情绪的视觉特征、带情绪的听觉特征和带情绪的文本特征分别输入对应的分类网络,得到视觉分类结果、听觉分类结果和文本分类结果,最后对这些结果进行融合得到最终的对话风格预测结果。
-
公开(公告)号:CN118898728A
公开(公告)日:2024-11-05
申请号:CN202310496397.7
申请日:2023-05-05
Applicant: 南京大学
Abstract: 一种群体和谓词并行预测的群体视觉关系检测方法,首先从输入图像中提取物体,根据物体种类和物体视觉特征计算物体相似度,根据相似度将物体划分到多个候选群体中,并将候选群体一一配对组成候选群体对,接着提取物体层级、群体层级、群体对层级的视觉特征、语义特征和位置特征,之后通过交叉注意力编码群体中的物体特征预测物体是否在群体中,并用物体置信度加权物体特征,与群体特征和群体对特征拼接后预测谓词。最后根据物体构成群体的置信度和谓词可能性生成群体视觉关系。本发明基于群体范围与群体视觉关系谓词相互影响的发现,通过并行预测群体范围和谓词类别,找出谓词和群体范围准确匹配的群体视觉关系,具有良好的广泛性。
-
公开(公告)号:CN110889397B
公开(公告)日:2023-06-20
申请号:CN201911284548.2
申请日:2019-12-13
Applicant: 南京大学
Abstract: 一种以人为主体的视觉关系分割方法,首先对于输入的图像,提取物体实例分割并分开一般物体和人体,同时对于输入的图像,提取人脸检测结果;然后将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果并将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入预测网络,得到图像中以人为主语的 视觉关系三元组并根据语言先验统计对结果进行筛选。本发明生成的分割定位结果和关系三元组具有较好的准确度,可以为图像搜索、图像说明、图像问答提供支持。
-
-
-
-
-
-
-
-
-