-
公开(公告)号:CN110046656A
公开(公告)日:2019-07-23
申请号:CN201910242039.7
申请日:2019-03-28
Applicant: 南京邮电大学
Abstract: 本发明揭示了一种基于深度学习的多模态场景识别方法,包括如下步骤:S1、对短文本进行分词处理;S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练;S3、训练短文本分类模型;S4、训练图片分类模型;S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,最终得到完整的多模态场景识别模型;S6、将文本和图像预测结果向量相加,得到最终的分类结果;S7、将待识别的短文本和图像分别输入所训练出的所述多模态场景识别模型,进行场景识别。本发明提出了一种多模态场景搜索方式,为用户提供了更加精准、方便的场景识。
-
公开(公告)号:CN110046656B
公开(公告)日:2023-07-11
申请号:CN201910242039.7
申请日:2019-03-28
Applicant: 南京邮电大学
IPC: G06V10/764 , G06N3/0464 , G06V10/774 , G06V10/82
Abstract: 本发明揭示了一种基于深度学习的多模态场景识别方法,包括如下步骤:S1、对短文本进行分词处理;S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练;S3、训练短文本分类模型;S4、训练图片分类模型;S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,最终得到完整的多模态场景识别模型;S6、将文本和图像预测结果向量相加,得到最终的分类结果;S7、将待识别的短文本和图像分别输入所训练出的所述多模态场景识别模型,进行场景识别。本发明提出了一种多模态场景搜索方式,为用户提供了更加精准、方便的场景识。
-