-
公开(公告)号:CN113590965B
公开(公告)日:2023-06-13
申请号:CN202110896190.X
申请日:2021-08-05
IPC分类号: G06F16/9535 , G06F16/78 , G06F16/36 , G06F18/214 , G06N3/0464
摘要: 本发明公开了一种融合知识图谱与情感分析的视频推荐方法,包括:1、使用知识图谱作为额外辅助信息,通过文本卷积神经网络提取视频特征生成视频向量;2、构建情感兴趣预测模型,眼动仪采集的眼动数据通过广义回归神经网络生成情感向量;3、将历史视频向量与对应的视频情感向量进行拼接经过神经网络DNN生成历史视频最终向量,计算所有历史视频最终向量的加和平均值动态的构建用户向量;4、候选视频向量和用户向量拼接后通过多层感知计算用户点击候选视频的概率,得到Top‑N推荐列表。本发明通过建立融合知识图谱与情感分析的视频推荐模型,用于用户的个性化推荐,并能提高推荐精度。
-
公开(公告)号:CN118051633A
公开(公告)日:2024-05-17
申请号:CN202410148559.2
申请日:2024-02-01
摘要: 本发明涉及跨模态检索技术领域,公开了一种基于长短映射的跨模态哈希检索方法,包括以下步骤:建立多模态数据集,多模态数据集中包括多个由图像以及对应的文本描述组成的图像文本描述对;构建长短映射方法;构建检索模型;哈希检索;本发明通过深度学习提取多维度特征,依据多维度特征之间的相关性差异实现不同维度特征之间的映射以增强低维特征的表现能力并提升检索准确率。
-
公开(公告)号:CN118038139A
公开(公告)日:2024-05-14
申请号:CN202410129619.6
申请日:2024-01-30
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于大模型微调的多模态小样本图像分类方法,包括:图像文本对的预处理;多模态特征的提取;构建基于CLIP大模型微调的多模态小样本分类模型;类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到图像特征,利用余弦分类器,对图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所述的类别,即为测试图像的预测类别。本发明在视觉‑语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。
-
公开(公告)号:CN113590965A
公开(公告)日:2021-11-02
申请号:CN202110896190.X
申请日:2021-08-05
IPC分类号: G06F16/9535 , G06F16/78 , G06F16/36 , G06K9/62 , G06N3/04
摘要: 本发明公开了一种融合知识图谱与情感分析的视频推荐方法,包括:1、使用知识图谱作为额外辅助信息,通过文本卷积神经网络提取视频特征生成视频向量;2、构建情感兴趣预测模型,眼动仪采集的眼动数据通过广义回归神经网络生成情感向量;3、将历史视频向量与对应的视频情感向量进行拼接经过神经网络DNN生成历史视频最终向量,计算所有历史视频最终向量的加和平均值动态的构建用户向量;4、候选视频向量和用户向量拼接后通过多层感知计算用户点击候选视频的概率,得到Top‑N推荐列表。本发明通过建立融合知识图谱与情感分析的视频推荐模型,用于用户的个性化推荐,并能提高推荐精度。
-
公开(公告)号:CN114419687A
公开(公告)日:2022-04-29
申请号:CN202110943991.7
申请日:2021-08-17
IPC分类号: G06V40/16 , G06V20/40 , G06V10/764 , G06K9/62 , G06Q50/20 , G10L15/02 , G10L15/04 , G10L25/24 , G10L25/45 , G10L25/63
摘要: 本发明公开了一种面向视频学习过程的认同度量化评估方法及系统,属于多媒体内容分析技术领域,包括:采集教学视频和学习者的面部视频;基于语音情感分类模型对教学视频进行处理,得到教学视频的情感表示矩阵;基于人脸情感分类模型对学习者的面部视频进行处理,得到学习者的情感表示矩阵;根据教学视频的情感表示矩阵和学习者的情感表示矩阵,计算学习者和教学视频的情感一致性。本发明通过分析视频内容和学习者面部表情的情感一致性来评估学习者对视频内容的认同度,可有效度量视频内容和人脸情感的相关性。
-
公开(公告)号:CN117593538A
公开(公告)日:2024-02-23
申请号:CN202311693782.7
申请日:2023-12-07
IPC分类号: G06V10/44 , G06V10/30 , G06V10/764 , G06V10/762 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/08
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于噪声标记数据的广义零样本识别模型。将图像样本输入到完成训练的广义零样本识别模型,得到图像样本的类别;广义零样本识别模型包括视觉特征合成网络和分类器;视觉特征合成网络包括:特征提取模块;样本级语义生成模块;反馈通道;视觉特征生成模块;再平衡模块;将不可见类的图像样本输入至完成训练的视觉特征合成网络,得到不可见类的图像样本的合成视觉特征;通过可见类的真实视觉特征和不可见类的合成视觉特征对所述分类器进行训练,实现对整个广义零样本识别模型的训练。提高了模型对样本分布的估计能力。
-
公开(公告)号:CN117591696A
公开(公告)日:2024-02-23
申请号:CN202311693780.8
申请日:2023-12-07
IPC分类号: G06F16/583 , G06F40/30 , G06F40/194 , G06V30/19
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于互补专家平衡学习的长尾跨模态检索方法。将图像文本对输入到完成训练的跨模态检索模型中,得到检索结果;跨模态检索模型的训练方法包括:将训练样本中的图像和文本投影到公共表示空间,提取图像的语义表示、文本的语义表示;输出专家网络关于图像的预测标签向量、关于文本的预测标签向量;得到图像的预测概率和文本的预测概率;构建训练损失函数,对各专家网络进行训练。本发明提出了互补的专家平衡学习的长尾跨模态检索,以减轻不平衡数据的影响。
-
公开(公告)号:CN116071759A
公开(公告)日:2023-05-05
申请号:CN202310202217.X
申请日:2023-03-06
IPC分类号: G06V30/19 , G06F40/289 , G06V10/82 , G06N3/0442 , G06N3/0455
摘要: 本发明涉及计算机视觉技术领域,公开了一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;光学字符识别模型的训练方法包括:对文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集;抽取文本图像的特征矢量:将特征矢量输入到基于预训练的GPT‑2模型的文本解码模块,预测生成相应的文本;将GPT‑2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,再对光学字符识别模型的参数进行微调;本发明能够利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。
-
公开(公告)号:CN115861663A
公开(公告)日:2023-03-28
申请号:CN202310185709.2
申请日:2023-03-01
IPC分类号: G06V10/74 , G06V30/418 , G06V10/82 , G06N3/0464 , G06N3/0895
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度,当余弦相似度小于设定的阈值时,则认为电子文档位置i处的内容被篡改。本发明不需要检测图像中每个字符的具体内容完成比对,能够提高比对的效率。
-
公开(公告)号:CN116071759B
公开(公告)日:2023-07-18
申请号:CN202310202217.X
申请日:2023-03-06
IPC分类号: G06V30/19 , G06F40/289 , G06V10/82 , G06N3/0442 , G06N3/0455
摘要: 本发明涉及计算机视觉技术领域,公开了一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;光学字符识别模型的训练方法包括:对文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集;抽取文本图像的特征矢量:将特征矢量输入到基于预训练的GPT‑2模型的文本解码模块,预测生成相应的文本;将GPT‑2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,再对光学字符识别模型的参数进行微调;本发明能够利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。
-
-
-
-
-
-
-
-
-