模型训练方法、视频定位方法、系统、设备、产品及介质

    公开(公告)号:CN118395196B

    公开(公告)日:2024-09-17

    申请号:CN202410853496.0

    申请日:2024-06-28

    Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。

    模型训练方法、视频定位方法、系统、设备、产品及介质

    公开(公告)号:CN118395196A

    公开(公告)日:2024-07-26

    申请号:CN202410853496.0

    申请日:2024-06-28

    Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。

    一种视觉语言理解方法、装置、设备及可读存储介质

    公开(公告)号:CN117746441B

    公开(公告)日:2024-05-10

    申请号:CN202410186665.X

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。

    一种视觉情感识别方法、装置、设备及可读存储介质

    公开(公告)号:CN117911929A

    公开(公告)日:2024-04-19

    申请号:CN202410186654.1

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉情感识别方法、装置、设备及可读存储介质,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,相较于对齐编码增强了视觉文本跨模态编码表达能力,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别。

    一种视频预训练模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN116229332A

    公开(公告)日:2023-06-06

    申请号:CN202310501619.X

    申请日:2023-05-06

    Abstract: 本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域,该训练方法包括:采用初始视频上下文预测模型和上下文预测数据集进行训练,得到已训练的视频上下文预测模型中的第一编码器;采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练,得到已训练的视频跨模态模型中的第二编码器;采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练,得到已训练的内容识别模型中的第三编码器;将所述第三编码器作为视频预训练模型,以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量,提高了对视频预训练模型进行训练的效率。

    一种知识抽取方法、系统、设备及存储介质

    公开(公告)号:CN114840632A

    公开(公告)日:2022-08-02

    申请号:CN202210609563.5

    申请日:2022-05-31

    Abstract: 本申请公开了一种知识抽取方法、系统、设备及存储介质,应用于数据处理技术领域,包括:确定文本语料库并进行标注,构建索引得到标注语料库;设置用于表征关系信息的种子数据并检索出相应句子确定出句子的检索词距离,检索词的语法解析树距离,以及动词词组的语法解析树距离;并基于确定出的句子各项距离,按照权重规则确定出句子的各动词词组各自的加权值;通过汇总得出加权值之和最高的K个目标动词词组;从标注语料库中检索出包括目标动词词组的各句子,并按预设规则进行校验;将通过校验之后的各个句子,汇总为对应于种子数据的知识抽取内容。应用本申请的方案,可以有效进行知识抽取,且通用性高、召回率高,可得到高质量的知识抽取内容。

    一种视觉语言理解方法、装置、设备及可读存储介质

    公开(公告)号:CN117746441A

    公开(公告)日:2024-03-22

    申请号:CN202410186665.X

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。

Patent Agency Ranking