-
公开(公告)号:CN115115868A
公开(公告)日:2022-09-27
申请号:CN202210386333.7
申请日:2022-04-13
Applicant: 之江实验室 , 中国科学院信息工程研究所
IPC: G06V10/764 , G06N3/04 , G06N3/08 , G06V10/774
Abstract: 本发明公开了一种基于三元组的多模态协同场景识别方法,涉及深度学习下的计算机视觉与自然语言处理领域,针对单模态识别方法在复杂场景中体现出的局限性,提出为每个样本匹配一个由图像、文本型摘要和实例信息三种模态的标注数据构成的三元组,分别进行三个分支的神经网络学习训练,通过综合考量多种模态下的特征信息,在不引入额外数据收集成本的情况下提升场景识别的准确率。
-
公开(公告)号:CN115115868B
公开(公告)日:2024-05-07
申请号:CN202210386333.7
申请日:2022-04-13
Applicant: 之江实验室 , 中国科学院信息工程研究所
IPC: G06V10/764 , G06N3/0464 , G06N3/08 , G06V10/774
Abstract: 本发明公开了一种基于三元组的多模态协同场景识别方法,涉及深度学习下的计算机视觉与自然语言处理领域,针对单模态识别方法在复杂场景中体现出的局限性,提出为每个样本匹配一个由图像、文本型摘要和实例信息三种模态的标注数据构成的三元组,分别进行三个分支的神经网络学习训练,通过综合考量多种模态下的特征信息,在不引入额外数据收集成本的情况下提升场景识别的准确率。
-