一种视觉语言理解方法、装置、设备及可读存储介质

    公开(公告)号:CN117746441A

    公开(公告)日:2024-03-22

    申请号:CN202410186665.X

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。

    一种图像侵权检测方法、装置、设备及可读存储介质

    公开(公告)号:CN117474903B

    公开(公告)日:2024-03-22

    申请号:CN202311800569.1

    申请日:2023-12-26

    Abstract: 本发明涉及人工智能技术领域,具体公开了一种图像侵权检测方法、装置、设备及可读存储介质,通过对第一样本图像数据集中的部分第一样本图像进行颜色扭曲处理后训练二分类探针检测模型,并对未授权图像进行颜色扭曲处理后以处理后的未授权图像替换未授权图像进行发布,从而对于文生图模型训练任务对应的文生图训练图像数据集,可以利用二分类探针检测模型识别得到文生图训练图像数据集中的探针检测结果以检测样本侵权事件。颜色扭曲相较于直接添加水印来说不易被人眼识别也难以被常用的预处理增强干扰,从而有效避免未授权图像被抹掉水印的情况,而能够被训练的二分类探针检测模型检出,从而实现对文生图模型训练时采用的图像是否侵权进行检出。

    数据集生成方法、三维内容生成方法、装置、设备及介质

    公开(公告)号:CN117315158A

    公开(公告)日:2023-12-29

    申请号:CN202311413665.0

    申请日:2023-10-30

    Abstract: 本发明公开了一种数据集生成方法、三维内容生成方法、装置、设备及介质,应用于人工智能技术领域。其中,方法包括利用预先基于预训练语言模型微调后的文本问答模型获取三维内容数据集所包含的部件名称信息,获取该数据集中各三维内容在多视角下的二维内容图像。根据部件名称信息和各二维内容图像,基于像素、部件名称、每个三维点之间的对应关系,确定各部件名称对应的所有三维点;根据三维内容数据集中每个三维内容的部件名称及相对应的三维点,得到文本与三维内容部件对应数据集。本发明可以解决相关技术生成的文本与三维内容部件对应数据集的精度和规模均不满足用户需求的问题,能够生成大规模高质量的文本与三维内容部件对应数据集。

    一种预训练语言模型的信息处理方法、装置、设备及介质

    公开(公告)号:CN116955578A

    公开(公告)日:2023-10-27

    申请号:CN202311221189.2

    申请日:2023-09-21

    Abstract: 本发明公开了一种预训练语言模型的信息处理方法、装置、设备及介质,应用于人工智能技术领域,为解决现有的预训练语言模型不能更好地满足用户需求的问题,提出通过本地预训练语言模型在循环生成待回复文本的下一个词时,生成当前词典概率表;根据当前词典概率表中的各词判断是否存在最优词;若是,则将最优词作为下一个词进行生成;若否,则基于当前已生成文本生成对应的自然语言问题及问题类型;基于问题类型将自然语言问题发送至其他相应的预训练语言模型,并接收各个预训练语言模型返回的答复;从各个答复中选择出最优答复,并将最优答复作为下一个词进行生成;从而可以使基于本地预训练语言模型智能体能更好满足用户需求,提高用户使用体验。

    数据识别方法、模型训练方法、装置、设备及存储介质

    公开(公告)号:CN116756536A

    公开(公告)日:2023-09-15

    申请号:CN202311034853.2

    申请日:2023-08-17

    Abstract: 本发明公开了一种数据识别方法、模型训练方法、装置、设备及存储介质,涉及计算机技术领域,旨在解决传统技术中无法对多源域数据进行快速高效识别的问题,所述数据识别方法应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。

    一种行人重识别方法、装置、设备及介质

    公开(公告)号:CN111881757B

    公开(公告)日:2023-09-01

    申请号:CN202010605966.3

    申请日:2020-06-29

    Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:利用第一行人重识别模型提取原始训练集的特征;其中,所述原始训练集包括行人样本图像和对应的标签信息;根据所述原始数据集的特征空间分布特性,进行聚类;根据聚类结果筛选出困难样本;将所述困难样本添加至所述原始训练集,得到目标训练集;利用所述目标训练集对所述第一行人重识别模型进行训练,得到第二行人重识别模型;当获取到待识别行人图像,则利用所述第二行人重识别模型输出对应的识别结果。这样,挖掘出困难样本,通过挖掘出的困难样本改变原始数据集中的样本空间分布,能够增加对困难样本的关注度,从而提升行人重识别的准确度。

Patent Agency Ranking