-
公开(公告)号:CN117114063A
公开(公告)日:2023-11-24
申请号:CN202311110301.5
申请日:2023-08-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82
Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。
-
公开(公告)号:CN115497113B
公开(公告)日:2023-11-14
申请号:CN202211219460.4
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/045
Abstract: 本公开提供了一种信息生成方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习技术领域,可应用于OCR等场景。具体实现方案为:对文本表格图像进行处理,得到文本表格图像中各文本区域的局部特征信息和文本识别信息;对局部特征信息进行列分类,得到各文本区域的列分类信息;根据局部特征信息,确定各文本区域之间的相似度;根据相似度,确定各文本区域的行分类信息;根据行分类信息、列分类信息和文本识别信息,生成文本表格图像的结构化信息。
-
公开(公告)号:CN111782840B
公开(公告)日:2023-08-22
申请号:CN202010616632.6
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/532 , G06F16/583 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/70 , G06N5/045
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括节点特征和边特征;基于上述节点特征和边特征,对节点特征进行更新,以得到更新视觉图;基于输入问题,确定问题特征;对更新视觉图和问题特征进行融合处理,以得到融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN116597454A
公开(公告)日:2023-08-15
申请号:CN202310597526.1
申请日:2023-05-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。
-
公开(公告)号:CN113033431B
公开(公告)日:2023-08-08
申请号:CN202110341261.X
申请日:2021-03-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V20/62 , G06V30/18 , G06V10/82 , G06F40/30 , G06N3/044 , G06N3/0442
Abstract: 本公开公开了一种光学字符识别模型训练和识别方法、装置、设备及介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术,可用于OCR场景下。具体实现方案为:对样本图像进行特征提取,得到样本特征数据;将所述样本特征数据输入至光学字符识别模型,以确定所述样本特征数据中的文字区域对应的局部特征数据,并提取所述局部特征数据中的语义信息,根据所述语义信息,确定所述文字区域的预测类别;根据所述预测类别和所述文字区域的标签类别,对所述光学字符识别模型进行训练。本公开提高了光学字符识别模型的类别预测结果的准确度。
-
公开(公告)号:CN114821622B
公开(公告)日:2023-07-21
申请号:CN202210234230.9
申请日:2022-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
公开(公告)号:CN114937277B
公开(公告)日:2023-04-11
申请号:CN202210543075.9
申请日:2022-05-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/18 , G06V30/19 , G06V10/82
Abstract: 本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。
-
公开(公告)号:CN113591864B
公开(公告)日:2023-04-07
申请号:CN202110858410.X
申请日:2021-07-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V30/19 , G06V10/80 , G06V30/18
Abstract: 本公开提供了一种文本识别模型框架的训练方法、装置及系统,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。包括:基于预设的文本检测模型对样本图像进行特征处理,得到与样本图像中文本信息相关的至少两种特征信息,基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理,得到样本图像的融合特征,将融合特征输入至特征融合模型,基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整,得到文本识别模型框架,文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性,从而实现了训练过程的完整性和全面性,提高了文本识别模型框架的准确性和可靠性。
-
公开(公告)号:CN114863439B
公开(公告)日:2023-02-17
申请号:CN202210546057.6
申请日:2022-05-19
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉等技术领域,可应用于OCR等场景。实现方案为:对第一文档图像进行编码,以得到多个尺度的目标特征图,并对查询信息进行编码,以得到目标文本特征;对目标特征图和目标文本特征进行融合,以得到目标融合特征;根据目标融合特征,提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此,可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息,以满足用户的实际提取需求,改善用户的使用体验;并且,通过自动提取结构化信息,可以提高待办事件的处理效率,支持企业办公智能化进程。
-
公开(公告)号:CN115497113A
公开(公告)日:2022-12-20
申请号:CN202211219460.4
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种信息生成方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习技术领域,可应用于OCR等场景。具体实现方案为:对文本表格图像进行处理,得到文本表格图像中各文本区域的局部特征信息和文本识别信息;对局部特征信息进行列分类,得到各文本区域的列分类信息;根据局部特征信息,确定各文本区域之间的相似度;根据相似度,确定各文本区域的行分类信息;根据行分类信息、列分类信息和文本识别信息,生成文本表格图像的结构化信息。
-
-
-
-
-
-
-
-
-