一种视频预训练模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN116229332A

    公开(公告)日:2023-06-06

    申请号:CN202310501619.X

    申请日:2023-05-06

    Abstract: 本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域,该训练方法包括:采用初始视频上下文预测模型和上下文预测数据集进行训练,得到已训练的视频上下文预测模型中的第一编码器;采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练,得到已训练的视频跨模态模型中的第二编码器;采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练,得到已训练的内容识别模型中的第三编码器;将所述第三编码器作为视频预训练模型,以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量,提高了对视频预训练模型进行训练的效率。

    一种知识抽取方法、系统、设备及存储介质

    公开(公告)号:CN114840632A

    公开(公告)日:2022-08-02

    申请号:CN202210609563.5

    申请日:2022-05-31

    Abstract: 本申请公开了一种知识抽取方法、系统、设备及存储介质,应用于数据处理技术领域,包括:确定文本语料库并进行标注,构建索引得到标注语料库;设置用于表征关系信息的种子数据并检索出相应句子确定出句子的检索词距离,检索词的语法解析树距离,以及动词词组的语法解析树距离;并基于确定出的句子各项距离,按照权重规则确定出句子的各动词词组各自的加权值;通过汇总得出加权值之和最高的K个目标动词词组;从标注语料库中检索出包括目标动词词组的各句子,并按预设规则进行校验;将通过校验之后的各个句子,汇总为对应于种子数据的知识抽取内容。应用本申请的方案,可以有效进行知识抽取,且通用性高、召回率高,可得到高质量的知识抽取内容。

    一种图像生成方法、装置、设备及介质

    公开(公告)号:CN114648681A

    公开(公告)日:2022-06-21

    申请号:CN202210546381.8

    申请日:2022-05-20

    Abstract: 本申请公开了一种图像生成方法、装置、设备及介质,涉及人工智能领域,该方法包括:获取弱相关图文数据对,并根据弱相关图文数据对创建图文数据集,弱相关图文数据对为图文之间呈弱相关关系的图文数据对,利用图文数据集对预先基于对抗网络构建的图像生成模型进行训练,以得到训练后图像生成模型,图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器,当获取到待处理文本数据,则利用训练后图像生成模型生成与待处理文本数据对应的图片。本方法采用呈弱相关关系的图文数据,并使用单阶段端到端的训练方法,使生成的图像更加贴近实际的生活场景,容易落地实施,可用于指导艺术化、抽象化等图像的生成。

    一种任务调度方法、装置、设备及可读存储介质

    公开(公告)号:CN114327811A

    公开(公告)日:2022-04-12

    申请号:CN202111401382.5

    申请日:2021-11-19

    Abstract: 本申请公开了一种任务调度方法、装置、设备及可读存储介质。本申请将充分考虑考虑任务特性和资源特征,能够基于一个任务的任务特性将其分配给最为合适的空闲模块,且同时保障获得的效能最优,针对每个任务如此处理,那么可获得最大的总效能之和,既实现了计算资源的合理分配,提高了任务分配的准确性和效率,还保证了任务实际被执行时的效能最优,有利于当前服务系统的平稳运行。相应地,本申请提供的一种任务调度装置、设备及可读存储介质,也同样具有上述技术效果。

    视觉语言模型训练方法、设备、介质及计算机程序产品

    公开(公告)号:CN119229238B

    公开(公告)日:2025-04-29

    申请号:CN202411719465.2

    申请日:2024-11-28

    Abstract: 本发明涉及人工智能视觉处理技术领域,具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品,通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库,在训练视觉语言模型时,利用视觉语言模型的视觉提示器进行层级式筛选,提高查询示例图像的效率以及质量,利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数,实现对视觉语言模型的全局优化,相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优,从而进一步提高图像处理质量。

    视觉语言模型训练方法、设备、介质及计算机程序产品

    公开(公告)号:CN119229238A

    公开(公告)日:2024-12-31

    申请号:CN202411719465.2

    申请日:2024-11-28

    Abstract: 本发明涉及人工智能视觉处理技术领域,具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品,通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库,在训练视觉语言模型时,利用视觉语言模型的视觉提示器进行层级式筛选,提高查询示例图像的效率以及质量,利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数,实现对视觉语言模型的全局优化,相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优,从而进一步提高图像处理质量。

    模型训练方法、视频定位方法、系统、设备、产品及介质

    公开(公告)号:CN118395195A

    公开(公告)日:2024-07-26

    申请号:CN202410853495.6

    申请日:2024-06-28

    Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频数据处理领域,用于解决定位音频事件时将视频模态视作噪声导致定位不准确的问题。获取训练数据集;根据视觉特征得到第一知识图结构,根据音频特征得到第二知识图结构;根据两个知识图结构对第一神经网络模型优化得到目标神经网络模型,目标神经网络模型用于对待处理视频数据进行类别标签定位。本发明通过构建视觉特征和音频特征对应的知识图结构,使用知识图结构优化第一神经网络模型,并未将视觉信息视为噪声,能捕捉和利用音频与视频间的复杂关联关系,能够更好地整合和利用多模态数据,提高得到的目标神经网络模型的定位精度和可靠性。

    视觉问答及其模型训练方法、装置、电子设备、存储介质

    公开(公告)号:CN117892140B

    公开(公告)日:2024-05-31

    申请号:CN202410295706.9

    申请日:2024-03-15

    Abstract: 本发明公开了一种视觉问答及其模型训练方法、装置、电子设备、存储介质,应用于人工智能领域。其中,方法包括获取视觉问答训练样本数据集;将问题‑图像对样本输入至视觉问答模型,图文编码器对问题‑图像对样本进行图文编码处理,交互解码器从接收到的图文编码特征中提取交互对象的语义特征,推理解码器融合接收到的图文编码特征和交互对象特征,并基于融合图文编码特征对应的正确答案‑正确事件知识标签、与从知识库检索的答案、事件知识间的损失不断地迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术无法满足用户高精度问答需求和答案可解释需求的问题,提升了基于场景交互任务中的视觉问答精度,让答案更具有可解释性。

    数据识别方法、模型训练方法、装置、设备及存储介质

    公开(公告)号:CN116756536B

    公开(公告)日:2024-04-26

    申请号:CN202311034853.2

    申请日:2023-08-17

    Abstract: 本发明公开了一种数据识别方法、模型训练方法、装置、设备及存储介质,涉及计算机技术领域,旨在解决传统技术中无法对多源域数据进行快速高效识别的问题,所述数据识别方法应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。

Patent Agency Ranking