一种多模态特征提取网络的预训练方法及装置

    公开(公告)号:CN115293348A

    公开(公告)日:2022-11-04

    申请号:CN202210974121.0

    申请日:2022-08-15

    Abstract: 本申请涉及数据处理技术领域,可应用于车载场景,尤其涉及一种多模态特征提取网络的预训练方法及装置,该方法为:在基于一批训练样本进行的一轮训练过程中,基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,并基于所述目标模态对应的局部映射子特征之间的时序关系,生成重构特征一个重构特征,以及基于目标模态的重构特征的目标模态特征与各个其他候选模态特征的相似性关系计算的损失值,调整网络参数。这样,不仅能够训练多模态特征提取网络提取更具时间敏感性的特征,还能够训练提取出不同模态的深层次特征,并能够提高训练后的多模态特征提取网络在下游任务中的适配性。

    一种标签生成方法、装置、设备及存储介质

    公开(公告)号:CN112188306B

    公开(公告)日:2022-06-21

    申请号:CN202011014223.5

    申请日:2020-09-23

    Abstract: 本申请实施例提供了一种标签生成方法、装置、设备及存储介质,包括:标签生成设备获取目标视频,从目标视频中抽取视频帧图像和音频帧,视频帧图像和所述音频帧具有对应关系;将音频帧转换为频谱图,调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理,得到目标视频的视频类型;若目标视频的视频类型为目标视频类型,则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理,得到目标视频的视频内容标签。通过上述方法,标签生成设备通过视频本身内容来生成视频对应的标签,以此提高生成的视频标签的准确性。

    一种标签生成方法、装置、设备及存储介质

    公开(公告)号:CN112188306A

    公开(公告)日:2021-01-05

    申请号:CN202011014223.5

    申请日:2020-09-23

    Abstract: 本申请实施例提供了一种标签生成方法、装置、设备及存储介质,包括:标签生成设备获取目标视频,从目标视频中抽取视频帧图像和音频帧,视频帧图像和所述音频帧具有对应关系;将音频帧转换为频谱图,调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理,得到目标视频的视频类型;若目标视频的视频类型为目标视频类型,则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理,得到目标视频的视频内容标签。通过上述方法,标签生成设备通过视频本身内容来生成视频对应的标签,以此提高生成的视频标签的准确性。

    神经网络训练方法、装置及电子设备

    公开(公告)号:CN111930992A

    公开(公告)日:2020-11-13

    申请号:CN202010819997.9

    申请日:2020-08-14

    Abstract: 本申请属于人工智能技术领域,具体涉及一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备。该方法包括:从视频样本中按照视频时间顺序采样得到至少两个样本片段;调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。该方法无需对视频数据进行人工标注,降低了数据处理成本并提高了数据处理效率。

    无监督的训练数据生成方法、装置、介质及设备

    公开(公告)号:CN115278299B

    公开(公告)日:2024-03-19

    申请号:CN202210893891.2

    申请日:2022-07-27

    Abstract: 本申请公开了无监督的训练数据生成方法、装置、介质及设备,涉及人工智能技术领域,该方法包括:获取第一原始视频和第二原始视频;确定所述第一原始视频中的目标视频片段,任一目标视频片段中视频帧对应的场景相关性满足预设条件;将所述目标视频片段和所述第二原始视频进行合成,得到目标合成视频;确定所述目标视频片段在所述目标合成视频中的时序位置信息;基于所述目标合成视频和所述时序位置信息,生成时序定位模型的训练数据。本申请采用无监督的方式生成训练数据,节省了人工标注成本,同时突出训练数据中的时序标注信息而省去行为类别标注信息,能够提升所训练的时序定位模型在时序边界上的预测准确性和在场景上的自适应性。

    神经网络训练方法、装置及电子设备

    公开(公告)号:CN111930992B

    公开(公告)日:2022-10-28

    申请号:CN202010819997.9

    申请日:2020-08-14

    Abstract: 本申请属于人工智能技术领域,具体涉及一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备。该方法包括:从视频样本中按照视频时间顺序采样得到至少两个样本片段;调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。该方法无需对视频数据进行人工标注,降低了数据处理成本并提高了数据处理效率。

    一种视频分析方法、装置、电子设备及存储介质

    公开(公告)号:CN115115985A

    公开(公告)日:2022-09-27

    申请号:CN202210746923.6

    申请日:2022-06-28

    Abstract: 本申请涉及视频分析技术领域,尤其涉及一种视频分析方法、装置、电子设备及存储介质,用以提高视频分析的准确性。该方法包括:基于已训练的目标视频分析模型,获得各视频片段各自包含各设定事件的初始概率,基于各初始概率以及预设的概率阈值,获得待分析的视频中包含的目标事件的定位信息,基于该定位信息,对待分析的视频中包含的目标事件进行分析;其中,目标视频分析模型是基于第一训练损失和第二训练损失对应的目标训练损失,对待训练的视频分析模型进行参数调整后得到的,第一训练损失是基于样本视频的每个样本视频片段包含各样本事件的样本初始概率获得的,第二训练损失是基于各样本参考概率获得的,从而可以提高视频分析的准确性。

    视频处理网络的训练方法、装置、设备及可读存储介质

    公开(公告)号:CN113705291A

    公开(公告)日:2021-11-26

    申请号:CN202110218759.7

    申请日:2021-02-26

    Abstract: 本申请提供一种视频处理网络的训练方法、装置、设备及可读存储介质,涉及人工智能技术领域,尤其涉及人工智能中的计算机视觉技术,以提升对视频进行特征提取的准确度。该方法包括:对第一网络和第二网络进行多轮迭代训练,将最后一轮迭代训练输出的第一网络确定为目标视频处理网络,每轮迭代训练中,基于各个目标参考特征各自对应的贡献值以及各个目标参考特征和基础特征的相似度,对第一网络进行参数调整,并基于进行参数调整后的第一网络对第二网络进行参数调整。利用该方法得到的目标视频处理网络对视频进行特征提取时,得到的特征中可以保留更多的视频时序信息,提升了对视频进行特征提取的准确度。

    无监督的训练数据生成方法、装置、介质及设备

    公开(公告)号:CN115278299A

    公开(公告)日:2022-11-01

    申请号:CN202210893891.2

    申请日:2022-07-27

    Abstract: 本申请公开了无监督的训练数据生成方法、装置、介质及设备,涉及人工智能技术领域,该方法包括:获取第一原始视频和第二原始视频;确定所述第一原始视频中的目标视频片段,任一目标视频片段中视频帧对应的场景相关性满足预设条件;将所述目标视频片段和所述第二原始视频进行合成,得到目标合成视频;确定所述目标视频片段在所述目标合成视频中的时序位置信息;基于所述目标合成视频和所述时序位置信息,生成时序定位模型的训练数据。本申请采用无监督的方式生成训练数据,节省了人工标注成本,同时突出训练数据中的时序标注信息而省去行为类别标注信息,能够提升所训练的时序定位模型在时序边界上的预测准确性和在场景上的自适应性。

Patent Agency Ranking