训练方法、图像检索方法、图像处理方法、装置及设备

    公开(公告)号:CN114782771A

    公开(公告)日:2022-07-22

    申请号:CN202210335680.7

    申请日:2022-03-30

    Abstract: 本公开提供了一种训练方法、图像检索方法、图像处理方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习领域。深度学习模型包括第一模型或第二模型,具体实现方案为:利用子模型处理样本图像,得到样本图像特征数据;利用子模型处理样本图像特征数据和样本任务特征数据,得到样本实例特征数据,其中,样本任务特征数据是根据样本图像确定的;基于对比损失函数,利用至少两个样本实例特征数据,训练至少两个子模型,其中,至少两个子模型的训练数据不同;根据训练后的子模型得到经训练的深度学习模型。

    任务处理方法、处理装置、电子设备及存储介质

    公开(公告)号:CN114428677A

    公开(公告)日:2022-05-03

    申请号:CN202210110164.4

    申请日:2022-01-28

    Abstract: 本公开提供了一种任务处理方法、处理装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:响应于接收到任务处理请求,根据任务处理请求指示的任务类型标识,对待处理的标注数据进行解析,得到任务标注数据,其中,任务标注数据的标签信息与任务类型标识相匹配,任务标注数据包括第一任务标注数据和第二任务标注数据;利用第一任务标注数据训练待训练模型,得到多个候选模型,其中,待训练模型是根据任务类型标识确定的;根据利用第二任务标注数据对多个候选模型进行性能评估得到的性能评估结果,从多个候选模型中确定目标模型。

    内容识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114120346A

    公开(公告)日:2022-03-01

    申请号:CN202111229111.6

    申请日:2021-10-21

    Abstract: 本公开提供了一种内容识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景下。具体实现方案为:获取待识别图像,确定待识别图像的内容类型,确定与内容类型相关的内容识别模型,以及采用内容识别模型对待识别图像进行内容识别,以得到目标内容。由此,实现根据内容类型灵活地筛选出匹配的内容识别模型,以辅助图像识别,从而实现对待识别图像进行针对性的识别处理,提升针对图像的内容识别效率,提升内容识别的灵活性,提升内容识别效果。

    票据识别方法、装置、设备以及存储介质

    公开(公告)号:CN112837466A

    公开(公告)日:2021-05-25

    申请号:CN202011501307.1

    申请日:2020-12-18

    Abstract: 本申请公开了一种票据识别方法、装置、设备以及存储介质,涉及计算机视觉、自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括:获取票据图像;将票据图像输入预先训练的票据识别模型的特征提取网络层中,得到票据图像的票据关键字段特征图和票据关键字段值特征图;将票据关键字段特征图输入票据识别模型的第一头部网络层中,得到票据关键字段;利用票据识别模型的第二头部网络层对票据关键字段值特征图进行处理,得到票据关键字段值,其中,特征提取网络层分别与第一头部网络层和第二头部网络层连接;基于票据关键字段和票据关键字段值,生成票据图像的结构化信息。

    训练票据识别模型和票据识别的方法和装置

    公开(公告)号:CN113239807B

    公开(公告)日:2024-04-02

    申请号:CN202110527551.3

    申请日:2021-05-14

    Abstract: 本公开提供了训练票据识别模型和票据识别的方法和装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:获取训练样本集和初始模型;将选取的训练样本的样本票据图像输入第一特征提取层中,得到第一特征图;将第一特征图输入第一头部层,得到文字框的位置;将第一特征图输入第二特征提取层中,得到第二特征图;将第二特征图输入第二头部层,得到键值对;根据文字框的位置确定出键值对在选取的样本票据图像中对应的字段区域;基于标注信息和字段区域,确定损失值;响应于损失值小于预定阈值,将初始模型确定为票据识别模型。该实施方式可以快速、准确地从票据图像中提取出感兴趣的字段。

    用于训练生成式大语言模型和用于处理图像任务的方法

    公开(公告)号:CN117114063A

    公开(公告)日:2023-11-24

    申请号:CN202311110301.5

    申请日:2023-08-30

    Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。

Patent Agency Ranking