一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

    公开(公告)号:CN116385937A

    公开(公告)日:2023-07-04

    申请号:CN202310371771.0

    申请日:2023-04-07

    Abstract: 本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

    一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

    公开(公告)号:CN113609330B

    公开(公告)日:2022-06-14

    申请号:CN202110907635.X

    申请日:2021-08-09

    Abstract: 本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,获得问题语句的词嵌入表示;其次,获得问题导向的视频文本级别特征表示;再其次,获得问题导向的具有空间注意的视频帧级别特征表示;再其次,获得最终的问题导向的视频帧级别特征表示;再其次,获得问题导向的视频片段级别特征表示;最后,得到具有问题导向的视频特征表示,并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征,可以更好地理解视频信息,增加了视频问答问题的准确度,缩小了视频和问题之间的模态差异。

    一种基于三元组多样范例集和梯度正则化的增量学习方法

    公开(公告)号:CN113610183B

    公开(公告)日:2022-06-03

    申请号:CN202110954054.1

    申请日:2021-08-19

    Abstract: 本发明提出了一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质,属于人工智能领域。首先,得到的预测样本特征和真实标签,并输入损失函数进行反向传播更新模型参数;其次,计算批次数据的原型表示;再其次,计算每个类别应保存的正例样本的数量和反例样本的数量;再其次,更新已有类别的范例集应存储的范例的数量;再其次,对正例集合范例集中的样本进行打分,根据样本的分数构建当前类别范例集;再其次,随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;再其次,计算三种损失函数的梯度;最后,对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新。本发明解决了灾难性遗忘的问题。

    一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质

    公开(公告)号:CN113592007B

    公开(公告)日:2022-05-31

    申请号:CN202110896069.7

    申请日:2021-08-05

    Abstract: 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质,属于图片检测技术领域。本发明包括首先利用图片数据增强方式对训练数据集进行数据增强,然后利用数据增强后的图片数据集训练基于图片全局特征进行识别的教师神经网络T1,利用数据增强后的图片数据集训练基于图片语义特征进行识别的教师神经网络T2,然后利用教师神经网络T1、T2,结合类别预测损失函数,特征注意力蒸馏损失函数,语义蒸馏损失函数训练学生神经网络,最后将待预测的图片输入到已训练完毕的学生神经网络中进行不良图片识别。本发明在不良图片识别问题中相比于传统方法准确率更高,识别速度更快。

    一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质

    公开(公告)号:CN113610183A

    公开(公告)日:2021-11-05

    申请号:CN202110954054.1

    申请日:2021-08-19

    Abstract: 本发明提出了一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质,属于人工智能领域。首先,得到的预测样本特征和真实标签,并输入损失函数进行反向传播更新模型参数;其次,计算批次数据的原型表示;再其次,计算每个类别应保存的正例样本的数量和反例样本的数量;再其次,更新已有类别的范例集应存储的范例的数量;再其次,对正例集合范例集中的样本进行打分,根据样本的分数构建当前类别范例集;再其次,随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;再其次,计算三种损失函数的梯度;最后,对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新。本发明解决了灾难性遗忘的问题。

    一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质

    公开(公告)号:CN113592008A

    公开(公告)日:2021-11-02

    申请号:CN202110896070.X

    申请日:2021-08-05

    Abstract: 本申请公开了一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质,属于计算机视觉技术领域。解决了现有技术中无法同时利用样本类内与类间分布情况的不足。本申请1)针对于基类数据集,依据重构损失最小化准则,训练一个自编码器,学习类内样本间的差异信息。2)将支持集的样本输入到自编码器中,为支持集生成更多的重构样本。3)将支持集的样本、重构样本和查询集样本一起训练出图神经网络,用来对查询集样本节点进行边标签的预测,进而预测节点所属的类别。本申请提高了小样本情况下模型的性能和泛化能力。

Patent Agency Ranking