多模态预训练模型的训练方法、装置、设备和存储介质

    公开(公告)号:CN118133241B

    公开(公告)日:2024-09-13

    申请号:CN202410552190.1

    申请日:2024-05-07

    Abstract: 本发明涉及多模态技术领域,提供一种多模态预训练模型的训练方法、装置、设备和存储介质,包括:构建多模态预训练模型,包括视觉编码器、多语言编码器以及英文解码器;基于图像‑英文文本数据获取第一损失函数;基于多语言文本‑英文文本数据获取第二损失函数;基于目标文本‑图像数据应用于视觉编码器与多语言编码器进行对比学习获取第三损失函数;基于目标文本‑图像数据的相似度矩阵获取强负样本数据,基于强负样本数据与正样本数据应用于英文解码器获取第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数,得到训练好的多模态预训练模型。本发明既有效缓解对多语言‑图像数据的依赖,又直接有效的利用视觉特征。

    基于事件感知的跨模态视频文本检索模型的训练方法

    公开(公告)号:CN118410210A

    公开(公告)日:2024-07-30

    申请号:CN202410845065.X

    申请日:2024-06-27

    Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。

    跨模态视频检索方法、装置及电子设备

    公开(公告)号:CN118227831A

    公开(公告)日:2024-06-21

    申请号:CN202410644212.7

    申请日:2024-05-23

    Abstract: 本发明涉及视频检索技术领域,提供一种跨模态视频检索方法、装置及电子设备,方法包括:提取查询文本的隐式特征和词表特征;基于特征提取模型,得到各候选视频的隐式特征和各候选视频的词表特征;基于查询文本的隐式特征与各候选视频的隐式特征之间的相似度以及查询文本的词表特征与各候选视频的词表特征之间的相似度,确定查询文本对应的检索视频;特征提取模型的词表特征训练阶段以最小化样本视频的词表特征与样本描述文本的词表特征之间的差异为训练目标,联合训练阶段以样本视频的隐式特征与样本描述文本的隐式特征之间的相似度作为软标签,最小化学生预测结果与软标签之间的差异为训练目标。本发明能够提高跨模态视频检索能力。

    内容安全检测模型训练方法、检测方法和装置

    公开(公告)号:CN116778376B

    公开(公告)日:2024-03-22

    申请号:CN202310530291.4

    申请日:2023-05-11

    Abstract: 本发明提供一种内容安全检测模型训练方法、检测方法和装置,其中训练方法包括:获取第一样本视频,并提取第一样本视频的压缩域信息;提取第一样本视频中的各帧图像在标准色域下的多源特征;基于第一样本视频的压缩域信息和标准色域下的多源特征,对初始模型进行跨模态蒸馏学习,得到训练完成的内容安全检测模型。本发明提供的内容安全检测模型训练方法、检测方法和装置,相比于现有的逐帧提取标准色域信息,极大提高了信息提取效率,并利用标准色域下的多源特征,对初始模型进行跨模态蒸馏学习,从而提升了压缩域内容安全检测的性能,能够同时兼顾效率和性能。

    图像质量评价方法及装置
    26.
    发明公开

    公开(公告)号:CN117522771A

    公开(公告)日:2024-02-06

    申请号:CN202311220311.4

    申请日:2023-09-20

    Abstract: 本发明提供一种图像质量评价方法及装置,该方法包括:根据各样本图像的质量分数预测值大于样本图像中其他样本的质量分数预测值的概率,确定质量分数预测值的排序索引估计值,质量分数预测值通过IQA模型得到;根据各样本图像的质量分数标签值大于样本图像中其他样本的质量分数标签值之间的概率,确定质量分数标签值的排序索引估计值;根据质量分数预测值的排序索引估计值和质量分数标签值的排序索引估计值,确定SROCC,根据SROCC确定IQA模型的损失值;根据IQA模型的损失值,基于梯度反向传播算法对IQA模型进行训练,基于训练好的IQA模型得到待评价图像的质量分数预测值。本发明实现将SROCC用于IQA模型的训练。

    深度卷积神经网络的压缩方法及系统

    公开(公告)号:CN111612143B

    公开(公告)日:2023-12-19

    申请号:CN202010440475.8

    申请日:2020-05-22

    Abstract: 本发明涉及一种深度卷积神经网络的压缩方法及系统,所述压缩方法包括:根据滤波器重要性选择方式和/或模型压缩率,确定待压缩深度卷积神经网络中不重要的滤波器;对不重要的滤波器施加渐进式稀疏约束,作为正则项加入到网络训练的损失函数中,得到优化损失函数;根据正则项,采用阈值迭代算法及反向传播算法联合求解,得到待压缩深度卷积神经网络的更新参数;基于所述优化损失函数及更新参数,获得具有滤波器稀疏形式的卷积神经网络模型;利用结构化剪枝算法,对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝,得到网络精度较高的压缩后的卷积神经网络模型。

    视频搜索方法、装置、设备和存储介质

    公开(公告)号:CN115422399B

    公开(公告)日:2023-10-31

    申请号:CN202210869119.7

    申请日:2022-07-21

    Abstract: 本发明实施例提供一种视频搜索方法、装置、设备和存储介质,该方法包括:获取用户输入的搜索信息;根据搜索信息,从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息;多模态信息包括搜索信息的扩展文本信息和视频特征信息;根据扩展文本信息和视频特征信息,基于搜索引擎确定目标视频。本发明实施例的方法通过多模态知识图谱,将用户的搜索信息扩展为更多模态的信息输入,进而基于扩展后的搜索信息,也就可以获得更加全面、更加准确的视频搜索结果,提升了视频搜索结果的准确性和全面性,解决了视频搜索过程中的误检和漏检问题。

    多目标跟踪方法、装置、电子设备和存储介质

    公开(公告)号:CN113628245B

    公开(公告)日:2023-10-31

    申请号:CN202110786110.5

    申请日:2021-07-12

    Abstract: 本发明提供一种多目标跟踪方法、装置、电子设备和存储介质,所述方法包括:获取待检测的当前视频帧;基于目标检测网络,对所述当前视频帧进行多目标检测,得到检测结果;基于所述检测结果,对所述当前视频帧中的各目标进行目标跟踪;其中,所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支;所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。本发明提供的方法、装置、电子设备和存储介质,节省了目标检测和特征抽取的时间消耗,大大提升了目标跟踪的速度,从而能够实现多目标的实时性跟踪,并且增强了抽取特征的鉴别性,同时避免了不必要的人力消耗和资源消耗。

Patent Agency Ranking