-
公开(公告)号:CN118395196B
公开(公告)日:2024-09-17
申请号:CN202410853496.0
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06V20/40 , G06V10/764 , G06F18/2431 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
-
公开(公告)号:CN118395196A
公开(公告)日:2024-07-26
申请号:CN202410853496.0
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06V20/40 , G06V10/764 , G06F18/2431 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
-
公开(公告)号:CN117765450B
公开(公告)日:2024-05-24
申请号:CN202410186667.9
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
-
公开(公告)号:CN117746441B
公开(公告)日:2024-05-10
申请号:CN202410186665.X
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。
-
公开(公告)号:CN117911929A
公开(公告)日:2024-04-19
申请号:CN202410186654.1
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V30/148 , G06V10/774 , G06V10/764
Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉情感识别方法、装置、设备及可读存储介质,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,相较于对齐编码增强了视觉文本跨模态编码表达能力,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别。
-
公开(公告)号:CN116246214A
公开(公告)日:2023-06-09
申请号:CN202310509062.4
申请日:2023-05-08
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/042 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/084 , G10L25/30 , G10L25/51
Abstract: 本申请公开了一种视听事件定位方法、模型训练方法、装置及设备和介质,涉及人工智能技术领域,该视听事件定位方法包括:利用目标网络模型确定多个视听片段的视听事件类别,并确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位;目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,注意力机制神经网络层用于提取多个视频段的全局视频特征和多个音频段的全局音频特征,并确定多个视听片段的视听事件类别,图卷积层用于提取多个视频段的局部视频特征和多个音频段的局部音频特征,输出卷积网络层用于确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位。
-
公开(公告)号:CN116229332A
公开(公告)日:2023-06-06
申请号:CN202310501619.X
申请日:2023-05-06
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/764 , G06N20/00
Abstract: 本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域,该训练方法包括:采用初始视频上下文预测模型和上下文预测数据集进行训练,得到已训练的视频上下文预测模型中的第一编码器;采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练,得到已训练的视频跨模态模型中的第二编码器;采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练,得到已训练的内容识别模型中的第三编码器;将所述第三编码器作为视频预训练模型,以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量,提高了对视频预训练模型进行训练的效率。
-
公开(公告)号:CN114840632A
公开(公告)日:2022-08-02
申请号:CN202210609563.5
申请日:2022-05-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/31 , G06F16/36 , G06F40/253 , G06F40/30
Abstract: 本申请公开了一种知识抽取方法、系统、设备及存储介质,应用于数据处理技术领域,包括:确定文本语料库并进行标注,构建索引得到标注语料库;设置用于表征关系信息的种子数据并检索出相应句子确定出句子的检索词距离,检索词的语法解析树距离,以及动词词组的语法解析树距离;并基于确定出的句子各项距离,按照权重规则确定出句子的各动词词组各自的加权值;通过汇总得出加权值之和最高的K个目标动词词组;从标注语料库中检索出包括目标动词词组的各句子,并按预设规则进行校验;将通过校验之后的各个句子,汇总为对应于种子数据的知识抽取内容。应用本申请的方案,可以有效进行知识抽取,且通用性高、召回率高,可得到高质量的知识抽取内容。
-
公开(公告)号:CN117765450A
公开(公告)日:2024-03-26
申请号:CN202410186667.9
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
-
公开(公告)号:CN117746441A
公开(公告)日:2024-03-22
申请号:CN202410186665.X
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。
-
-
-
-
-
-
-
-
-