-
公开(公告)号:CN118172786A
公开(公告)日:2024-06-11
申请号:CN202410361912.5
申请日:2024-03-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/18 , G06V30/19 , G06F40/126
Abstract: 本公开提供了一种信息提取方法和信息提取模型的训练方法、装置、设备、介质和程序产品,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉领域,可应用于OCR等场景。信息提取方法的具体实现方案为:对文本图像进行文本识别,得到文本图像中的字符及字符的位置信息;对文本图像进行版面分析,得到文本图像中版面元素的位置信息和类别信息;根据字符的位置信息和版面元素的位置信息,确定字符与版面元素的对应关系;以及根据对应关系及版面元素的类别信息,提取得到文本图像的结构化信息。
-
公开(公告)号:CN117315690A
公开(公告)日:2023-12-29
申请号:CN202311268101.2
申请日:2023-09-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/28 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/0895 , G06N3/09
Abstract: 本公开提供了一种公式识别方法、装置、设备、存储介质及程序产品,涉及计算机视觉、深度学习、图像处理等人工智能技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:利用编码网络得到包含有公式的待识别图像的特征图;利用解码网络对特征图中的特征依次进行解码操作:处理特征图和已解码公式符号的特征编码,并将输出的当前隐藏层状态和特征图再输入多方向局部注意力模块,得到待解码公式符号的区域图像,以及处理区域图像、特征编码、当前隐藏层状态和行计数热力图,得到输出的公式符号识别结果;将依次输出的公式符号识别结果生成公式符号序列。
-
公开(公告)号:CN116844168A
公开(公告)日:2023-10-03
申请号:CN202310796813.5
申请日:2023-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146 , G06V30/19 , G06V30/18 , G06V10/82 , G06N3/0442
Abstract: 本公开提供了一种确定文本的方法,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:从目标文档图像中确定包含文本段的至少一个图像块;响应于接收输入文本,计算输入文本与每个图像块之间的相似度;以及根据相似度,从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。
-
公开(公告)号:CN116386049A
公开(公告)日:2023-07-04
申请号:CN202310371525.5
申请日:2023-04-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/186
Abstract: 本公开提供一种公式识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景下。具体实现方案包括:对目标图像进行特征提取,得到所述目标图像对应的第一特征图;从所述第一特征图中提取手写公式区域对应的第二特征图和印刷公式区域对应的第三特征图;采用预设的手写公式识别网络对所述第二特征图进行识别,得到手写公式识别结果;采用预设的印刷公式识别网络对所述第三特征图进行识别,得到印刷公式识别结果。本公开可以同时提高手写公式和印刷公式的识别准确率和效率。
-
公开(公告)号:CN118586502A
公开(公告)日:2024-09-03
申请号:CN202410796817.8
申请日:2024-06-19
Applicant: 北京百度网讯科技有限公司
IPC: G06N5/04 , G06F16/332 , G06F16/58 , G06N5/022 , G06N3/0455 , G06N3/08 , G06V10/80
Abstract: 本公开提供了问答信息的生成及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域,可应用于光学字符识别等场景。其中的问答信息的生成方法可包括:获取待处理的目标图像,目标图像中包括待解答的问题内容以及问题内容对应的配图;分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息;结合文本模态信息以及图像模态信息,利用多模态大模型确定出问题内容对应的解答信息。
-
公开(公告)号:CN116386062A
公开(公告)日:2023-07-04
申请号:CN202310362262.1
申请日:2023-04-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/22 , G06V30/18 , G06V10/82 , G06T3/00 , G06N3/0442 , G06N3/0464
Abstract: 本公开涉及人工智能技术领域,具体涉及计算机视觉、深度学习等技术领域,尤其涉及公式识别方法、装置、电子设备以及存储介质。具体实现方案为:通过第一特征提取网络对手写公式图像进行特征提取得到第一特征图;通过图像转换网络基于手写公式图像特征与印刷公式图像特征之间的映射关系将第一特征图转换为第二特征图,并基于第二特征图生成印刷公式图像;通过第二特征提取网络对印刷公式图像进行特征提取得到第三特征图;基于第三特征图进行识别得到公式识别结果。通过将图像转换作为公式识别的前置任务,训练模型学习将复杂多变的手写公式映射为印刷公式,再对印刷公式图像进行识别,提升手写公式的识别准确率和识别效率。
-
公开(公告)号:CN117315689A
公开(公告)日:2023-12-29
申请号:CN202311267820.2
申请日:2023-09-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/28 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/0895 , G06N3/09
Abstract: 本公开提供了一种公式识别方法、装置、设备、存储介质及程序产品,涉及计算机视觉、深度学习、图像处理等人工智能技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:利用编码网络得到包含有公式的待识别图像的特征图,并利用解码网络中的全局行注意力模块得到与特征图对应的行计数热力图;利用解码网络对特征图中的特征依次进行解码操作:处理行计数热力图和已解码公式符号的特征编码,并对处理后得到的当前隐藏层状态和特征图注意力模块再进行处理,得到待解码公式符号的区域图像;处理将区域图像、特征编码、当前隐藏层状态和行计数热力图,得到输出的公式符号识别结果;将解码网络依次输出的公式符号识别结果生成公式符号序列。
-
公开(公告)号:CN116071758A
公开(公告)日:2023-05-05
申请号:CN202310118570.X
申请日:2023-01-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/10 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/0464 , G06N3/0442
Abstract: 本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:根据目标公式图像中目标符号的目标语义特征,确定所述目标符号的目标注意力权重;根据所述目标语义特征和所述目标注意力权重,确定所述目标符号的识别结果;根据所述识别结果、所述目标注意力权重和所述目标符号的标签数据,对公式识别模型进行训练。通过上述技术方案,可以提高公式识别的准确性。
-
-
-
-
-
-
-