-
公开(公告)号:CN115809352A
公开(公告)日:2023-03-17
申请号:CN202211581256.7
申请日:2022-12-09
申请人: 上海交通大学
IPC分类号: G06F16/732 , G06F16/783 , G06F40/279 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464
摘要: 本发明提供了一种局部监督长视频时序文本检索方法及系统,包括:根据输入检索文本提取文本初始特征;根据输入长视频提取视频初始特征;将文本初始特征和视频初始特征进行跨模态融合为文本特征图和视频特征图;将视频特征图映射为文本描述的事件提案,进而计算事件时序位置掩膜;根据局部时序标签监督事件提案;基于时序位置掩膜,对事件特征和文本特征进行聚合;基于事件特征、文本特征进行多模态特征对比学习;基于事件提案计算粗略检索结果;对粗略检索结果进行细化,产生精确边界检索结果图;基于精确边界检索结果图产生最终预测。本发明通过局部监督在维持低廉标注成本的同时,也提供了精确的检索位置锚,奠定了强大的性能基石。
-
公开(公告)号:CN111652083B
公开(公告)日:2023-04-18
申请号:CN202010403823.4
申请日:2020-05-13
申请人: 上海交通大学
IPC分类号: G06V40/20 , G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0464
摘要: 本发明提供了一种基于自适应采样的弱监督时序动作检测方法及系统,包括:根据输入的视频提取视频特征图;将视频特征图映射成均匀分布类别激活序列;根据均匀分布类别激活序列产生伯努利数列作为自适应重采样位置索引;对视频特征图进行特征重采样;将视频重采样特征图映射成非均匀分布类别激活序列;对均匀和非均匀分布类别激活序列使用分类网络预测视频为各个类别的概率;对非均匀分布类别激活序列进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;选择对齐后的均匀或非均匀分布类别激活序列使用阈值法得到视频的检测结果。本发明对输入视频提取两种相互补充、互相监督的类别激活映射序列,实现更精确的弱监督的视频时序动作检测。
-
公开(公告)号:CN115272941A
公开(公告)日:2022-11-01
申请号:CN202211056034.3
申请日:2022-08-31
申请人: 上海交通大学
IPC分类号: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/774 , G06V10/764 , G06V10/40 , G06N3/04 , G06N3/08
摘要: 本发明提供了一种弱监督视频时序动作检测与分类方法及系统,包括:根据输入长视频提取单模态特征图;将单模态特征图映射为动作分类概率和动作定位概率图;基于动作定位概率图蒸馏背景伪标签;根据输入长视频和动作名称列表提取视觉特征图和文本特征图;计算动作检测概率图;基于动作检测概率图蒸馏前景伪标签;根据背景伪标签对动作定位进行背景协同优化;根据前景伪标签对动作检测进行前景协同优化;基于动作分类概率产生视频分类结果,基于动作定位概率图产生视频检测结果。本发明采用蒸馏协同的策略,促使单模态和跨模态框架优势互补,实现更完整且准确的时序动作检测和分类。
-
公开(公告)号:CN116935399A
公开(公告)日:2023-10-24
申请号:CN202310913202.4
申请日:2023-07-24
申请人: 上海交通大学
IPC分类号: G06V30/148 , G06V30/146 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/084
摘要: 本发明提供了一种开放词汇语义分割方法及系统,包括:将目标类别文本分解为属性文本的集合;使用视觉特征提取器将目标图片编码为视觉特征;使用文本特征提取器将属性文本编码为属性特征;将视觉特征和属性特征一起送入属性聚合网络,得到分割概率图,使用阈值法将其转换为分割结果;计算预测的分割结果和真实分割掩码的损失,利用梯度下降法进行训练;使用训练好的模型,对测试图像和测试属性文本进行推理,得到测试图像分割结果。本发明提出分解‑聚合的策略,大幅提升了开放词汇语义分割的准确性。
-
公开(公告)号:CN113936174A
公开(公告)日:2022-01-14
申请号:CN202111190861.7
申请日:2021-10-13
申请人: 上海交通大学
摘要: 本发明提供了一种单帧监督视频时序动作检测与分类方法及系统,包括:根据输入长视频提取视频特征图;将视频特征图映射为动作种子帧概率图;产生动作种子帧位置;根据动作种子帧位置将输入长视频划分为若干个单实例视频片段;将单实例视频片段特征映射为动作位置提案;将动作位置提案映射为时序位置掩膜;基于时序位置掩膜获取单实例视频片段中的动作特征、背景特征;将动作特征、背景特征映射为动作类别概率、背景类别概率;基于动作位置提案、动作类别概率产生视频的检测与分类结果。本发明采用分而治之的策略将单帧监督时序动作检测与分类任务化繁为简,实现更完整、更精确的时序动作检测与分类。
-
公开(公告)号:CN111652083A
公开(公告)日:2020-09-11
申请号:CN202010403823.4
申请日:2020-05-13
申请人: 上海交通大学
摘要: 本发明提供了一种基于自适应采样的弱监督时序动作检测方法及系统,包括:根据输入的视频提取视频特征图;将视频特征图映射成均匀分布类别激活序列;根据均匀分布类别激活序列产生伯努利数列作为自适应重采样位置索引;对视频特征图进行特征重采样;将视频重采样特征图映射成非均匀分布类别激活序列;对均匀和非均匀分布类别激活序列使用分类网络预测视频为各个类别的概率;对非均匀分布类别激活序列进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;选择对齐后的均匀或非均匀分布类别激活序列使用阈值法得到视频的检测结果。本发明对输入视频提取两种相互补充、互相监督的类别激活映射序列,实现更精确的弱监督的视频时序动作检测。
-
-
-
-
-