-
公开(公告)号:CN114821622A
公开(公告)日:2022-07-29
申请号:CN202210234230.9
申请日:2022-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
公开(公告)号:CN114782771A
公开(公告)日:2022-07-22
申请号:CN202210335680.7
申请日:2022-03-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06V10/82 , G06V10/74 , G06N3/08 , G06N3/04 , G06K9/62 , G06F16/583
Abstract: 本公开提供了一种训练方法、图像检索方法、图像处理方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习领域。深度学习模型包括第一模型或第二模型,具体实现方案为:利用子模型处理样本图像,得到样本图像特征数据;利用子模型处理样本图像特征数据和样本任务特征数据,得到样本实例特征数据,其中,样本任务特征数据是根据样本图像确定的;基于对比损失函数,利用至少两个样本实例特征数据,训练至少两个子模型,其中,至少两个子模型的训练数据不同;根据训练后的子模型得到经训练的深度学习模型。
-
公开(公告)号:CN114549695A
公开(公告)日:2022-05-27
申请号:CN202210032582.6
申请日:2022-01-12
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/60 , G06F40/30 , G06F16/55 , G06F16/583
Abstract: 本公开提供了一种图像生成方法、装置、电子设备及可读存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于文字识别等场景。其中,图像生成方法包括:获取第一图像,得到所述第一图像中的文本内容;根据所述文本内容,确定目标文本库;根据所述第一图像与所述目标文本库中的目标文本,生成第二图像。本公开能够简化图像生成时的步骤,提升图像生成时的效率。
-
公开(公告)号:CN114428677A
公开(公告)日:2022-05-03
申请号:CN202210110164.4
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
IPC: G06F9/48
Abstract: 本公开提供了一种任务处理方法、处理装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:响应于接收到任务处理请求,根据任务处理请求指示的任务类型标识,对待处理的标注数据进行解析,得到任务标注数据,其中,任务标注数据的标签信息与任务类型标识相匹配,任务标注数据包括第一任务标注数据和第二任务标注数据;利用第一任务标注数据训练待训练模型,得到多个候选模型,其中,待训练模型是根据任务类型标识确定的;根据利用第二任务标注数据对多个候选模型进行性能评估得到的性能评估结果,从多个候选模型中确定目标模型。
-
公开(公告)号:CN114120346A
公开(公告)日:2022-03-01
申请号:CN202111229111.6
申请日:2021-10-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413
Abstract: 本公开提供了一种内容识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景下。具体实现方案为:获取待识别图像,确定待识别图像的内容类型,确定与内容类型相关的内容识别模型,以及采用内容识别模型对待识别图像进行内容识别,以得到目标内容。由此,实现根据内容类型灵活地筛选出匹配的内容识别模型,以辅助图像识别,从而实现对待识别图像进行针对性的识别处理,提升针对图像的内容识别效率,提升内容识别的灵活性,提升内容识别效果。
-
公开(公告)号:CN112837466A
公开(公告)日:2021-05-25
申请号:CN202011501307.1
申请日:2020-12-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种票据识别方法、装置、设备以及存储介质,涉及计算机视觉、自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括:获取票据图像;将票据图像输入预先训练的票据识别模型的特征提取网络层中,得到票据图像的票据关键字段特征图和票据关键字段值特征图;将票据关键字段特征图输入票据识别模型的第一头部网络层中,得到票据关键字段;利用票据识别模型的第二头部网络层对票据关键字段值特征图进行处理,得到票据关键字段值,其中,特征提取网络层分别与第一头部网络层和第二头部网络层连接;基于票据关键字段和票据关键字段值,生成票据图像的结构化信息。
-
公开(公告)号:CN119048616A
公开(公告)日:2024-11-29
申请号:CN202410937470.4
申请日:2024-07-12
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/00 , G06T11/20 , G06N5/04 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0475 , G06N3/0985
Abstract: 本公开提供了文本图像生成以及文本图像生成模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域,可应用于基于人工智能的内容生成等场景。其中的文本图像生成方法可包括:获取文本图像以及第一风格参考图像,文本图像中包括第一文本内容;将文本图像以及第一风格参考图像作为文本图像生成模型的输入,得到文本图像生成模型输出的目标图像,目标图像为符合目标风格且包括第一文本内容的图像,目标风格为第一风格参考图像的图像风格。
-
公开(公告)号:CN113239807B
公开(公告)日:2024-04-02
申请号:CN202110527551.3
申请日:2021-05-14
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V20/62 , G06V30/18 , G06V10/44 , G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了训练票据识别模型和票据识别的方法和装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:获取训练样本集和初始模型;将选取的训练样本的样本票据图像输入第一特征提取层中,得到第一特征图;将第一特征图输入第一头部层,得到文字框的位置;将第一特征图输入第二特征提取层中,得到第二特征图;将第二特征图输入第二头部层,得到键值对;根据文字框的位置确定出键值对在选取的样本票据图像中对应的字段区域;基于标注信息和字段区域,确定损失值;响应于损失值小于预定阈值,将初始模型确定为票据识别模型。该实施方式可以快速、准确地从票据图像中提取出感兴趣的字段。
-
公开(公告)号:CN117114063A
公开(公告)日:2023-11-24
申请号:CN202311110301.5
申请日:2023-08-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82
Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。
-
公开(公告)号:CN111782840B
公开(公告)日:2023-08-22
申请号:CN202010616632.6
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/532 , G06F16/583 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/70 , G06N5/045
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括节点特征和边特征;基于上述节点特征和边特征,对节点特征进行更新,以得到更新视觉图;基于输入问题,确定问题特征;对更新视觉图和问题特征进行融合处理,以得到融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
-
-
-
-
-
-
-
-