-
公开(公告)号:CN111741236B
公开(公告)日:2021-01-01
申请号:CN202010857184.9
申请日:2020-08-24
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。
-
公开(公告)号:CN112348102B
公开(公告)日:2024-03-19
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/766 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图#imgabs0#中。最后特征图#imgabs1#通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN111741236A
公开(公告)日:2020-10-02
申请号:CN202010857184.9
申请日:2020-08-24
Applicant: 浙江大学
IPC: H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。
-
公开(公告)号:CN112348102A
公开(公告)日:2021-02-09
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06K9/62 , G06K9/00 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图中。最后特征图通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN111708904A
公开(公告)日:2020-09-25
申请号:CN202010857191.9
申请日:2020-08-24
Applicant: 浙江大学
IPC: G06F16/535 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于主题适应与原型编码的少样本视觉故事叙述方法。该方法首先将据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;对查询集中的样本提取时序视觉语义特征和图像序列特征,结合在支持集中预先提取好的的故事特征和图像序列特征计算原型向量;再将原型向量与图像序列特征结合,进一步解码获得故事性描述文本。整体视觉故事模型进一步通过元学习方法,根据在查询集上计算得到的综合损失来优化模型的初始参数。在推测阶段,模型通过少数样本调整参数,根据新图像序列生成故事文本。本发明结合原型编码及元学习方法,所构建的模型具有快速适应主题的能力,能更好地生成符合图像序列主题的故事性文本描述。
-
-
-
-