-
公开(公告)号:CN113792594B
公开(公告)日:2024-04-12
申请号:CN202110912484.7
申请日:2021-08-10
Applicant: 南京大学
Abstract: 一种基于对比学习的视频中语言片段定位方法及装置,建立一个对比与兼容匹配网络来建模句子和视频片段的关系,对比与兼容匹配网络首先对句子和视频提取自然语言特征和视频片段特征,然后将两种特征均分别映射到两组联合建模空间里,两组联合建模空间对应的映射函数参数不相同,在联合建模空间使用余弦相似度计算两种特征的相似度;分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练网络;对待定位的视频片段和自然语言语句,输入训练好的对比与兼容匹配网络,得到两组联合建模空间中的相似度,计算得到定位置信度,由定位置信度确定最终定位结果。本发明完整利用语言和视觉的双向监督信号,从而大幅提升视频中的语言片段时序定位的效果。
-
公开(公告)号:CN113792594A
公开(公告)日:2021-12-14
申请号:CN202110912484.7
申请日:2021-08-10
Applicant: 南京大学
Abstract: 一种基于对比学习的视频中语言片段定位方法及装置,建立一个对比与兼容匹配网络来建模句子和视频片段的关系,对比与兼容匹配网络首先对句子和视频提取自然语言特征和视频片段特征,然后将两种特征均分别映射到两组联合建模空间里,两组联合建模空间对应的映射函数参数不相同,在联合建模空间使用余弦相似度计算两种特征的相似度;分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练网络;对待定位的视频片段和自然语言语句,输入训练好的对比与兼容匹配网络,得到两组联合建模空间中的相似度,计算得到定位置信度,由定位置信度确定最终定位结果。本发明完整利用语言和视觉的双向监督信号,从而大幅提升视频中的语言片段时序定位的效果。
-