动作识别及其模型训练方法、装置、电子设备、存储介质

    公开(公告)号:CN117877125B

    公开(公告)日:2024-06-07

    申请号:CN202410270243.0

    申请日:2024-03-11

    Abstract: 本发明公开了一种动作识别及其模型训练方法、装置、电子设备、存储介质,应用于视频理解技术领域。其中,方法包括将具有动作标签和音频数据的视频样本输入动作识别模型,提取视频样本的视觉特征、文本语义特征及音频特征,对视觉特征、音频特征进行视觉交互和视听交互,并为文本语义特征添加交互特征,得到多模态动作标签特征;根据视觉交互特征、视听交互特征、音频特征与多模态动作标签特征之间的损失,对动作识别模型进行迭代更新。本发明可以解决相关技术精细动作识别差且动作识别任务收敛慢的问题,能够使得动作识别模型更全面地理解和描述精细动作特征,提高动作识别的性能和鲁棒性,还能增强模型扩展性和灵活性。

    一种视觉语言理解方法、装置、设备及可读存储介质

    公开(公告)号:CN117746441B

    公开(公告)日:2024-05-10

    申请号:CN202410186665.X

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。

    一种视觉情感识别方法、装置、设备及可读存储介质

    公开(公告)号:CN117911929A

    公开(公告)日:2024-04-19

    申请号:CN202410186654.1

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉情感识别方法、装置、设备及可读存储介质,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,相较于对齐编码增强了视觉文本跨模态编码表达能力,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别。

    一种视频预训练模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN116229332A

    公开(公告)日:2023-06-06

    申请号:CN202310501619.X

    申请日:2023-05-06

    Abstract: 本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域,该训练方法包括:采用初始视频上下文预测模型和上下文预测数据集进行训练,得到已训练的视频上下文预测模型中的第一编码器;采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练,得到已训练的视频跨模态模型中的第二编码器;采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练,得到已训练的内容识别模型中的第三编码器;将所述第三编码器作为视频预训练模型,以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量,提高了对视频预训练模型进行训练的效率。

    一种知识抽取方法、系统、设备及存储介质

    公开(公告)号:CN114840632A

    公开(公告)日:2022-08-02

    申请号:CN202210609563.5

    申请日:2022-05-31

    Abstract: 本申请公开了一种知识抽取方法、系统、设备及存储介质,应用于数据处理技术领域,包括:确定文本语料库并进行标注,构建索引得到标注语料库;设置用于表征关系信息的种子数据并检索出相应句子确定出句子的检索词距离,检索词的语法解析树距离,以及动词词组的语法解析树距离;并基于确定出的句子各项距离,按照权重规则确定出句子的各动词词组各自的加权值;通过汇总得出加权值之和最高的K个目标动词词组;从标注语料库中检索出包括目标动词词组的各句子,并按预设规则进行校验;将通过校验之后的各个句子,汇总为对应于种子数据的知识抽取内容。应用本申请的方案,可以有效进行知识抽取,且通用性高、召回率高,可得到高质量的知识抽取内容。

    一种图像生成方法、装置、设备及介质

    公开(公告)号:CN114648681A

    公开(公告)日:2022-06-21

    申请号:CN202210546381.8

    申请日:2022-05-20

    Abstract: 本申请公开了一种图像生成方法、装置、设备及介质,涉及人工智能领域,该方法包括:获取弱相关图文数据对,并根据弱相关图文数据对创建图文数据集,弱相关图文数据对为图文之间呈弱相关关系的图文数据对,利用图文数据集对预先基于对抗网络构建的图像生成模型进行训练,以得到训练后图像生成模型,图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器,当获取到待处理文本数据,则利用训练后图像生成模型生成与待处理文本数据对应的图片。本方法采用呈弱相关关系的图文数据,并使用单阶段端到端的训练方法,使生成的图像更加贴近实际的生活场景,容易落地实施,可用于指导艺术化、抽象化等图像的生成。

    一种任务调度方法、装置、设备及可读存储介质

    公开(公告)号:CN114327811A

    公开(公告)日:2022-04-12

    申请号:CN202111401382.5

    申请日:2021-11-19

    Abstract: 本申请公开了一种任务调度方法、装置、设备及可读存储介质。本申请将充分考虑考虑任务特性和资源特征,能够基于一个任务的任务特性将其分配给最为合适的空闲模块,且同时保障获得的效能最优,针对每个任务如此处理,那么可获得最大的总效能之和,既实现了计算资源的合理分配,提高了任务分配的准确性和效率,还保证了任务实际被执行时的效能最优,有利于当前服务系统的平稳运行。相应地,本申请提供的一种任务调度装置、设备及可读存储介质,也同样具有上述技术效果。

    一种行人重识别方法、装置、设备及介质

    公开(公告)号:CN111881757A

    公开(公告)日:2020-11-03

    申请号:CN202010605966.3

    申请日:2020-06-29

    Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:利用第一行人重识别模型提取原始训练集的特征;其中,所述原始训练集包括行人样本图像和对应的标签信息;根据所述原始数据集的特征空间分布特性,进行聚类;根据聚类结果筛选出困难样本;将所述困难样本添加至所述原始训练集,得到目标训练集;利用所述目标训练集对所述第一行人重识别模型进行训练,得到第二行人重识别模型;当获取到待识别行人图像,则利用所述第二行人重识别模型输出对应的识别结果。这样,挖掘出困难样本,通过挖掘出的困难样本改变原始数据集中的样本空间分布,能够增加对困难样本的关注度,从而提升行人重识别的准确度。

Patent Agency Ranking