-
公开(公告)号:CN115601620B
公开(公告)日:2024-11-12
申请号:CN202211304730.1
申请日:2022-10-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了特征融合方法、装置、电子设备及计算机可读存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、大模型、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一输入特征以及第二输入特征,第一输入特征以及第二输入特征均与目标分析对象的相关性满足预设的相关性条件;将第一输入特征以及第二输入特征输入预置的特征融合网络,得到第一交叉注意力特征以及第二交叉注意力特征。基于本方案提供的特征融合网络对第一输入特征以及第二输入特征进行特征融合处理,得到融合有第一输入特征的特性以及第二输入特征的特性的第一交叉注意力特征以及第二交叉注意力特征,能够提升特征融合的效果。
-
公开(公告)号:CN118587729A
公开(公告)日:2024-09-03
申请号:CN202410868476.0
申请日:2024-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/414 , G06V30/416 , G06V30/186 , G06V30/18 , G06V30/19 , G06V30/26 , G06N5/04 , G06F40/295
Abstract: 本公开提供了文本信息的生成方法、模型训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于光学字符识别和人机交互场景。该文本信息的生成方法的具体实现方案为:提取待处理图像的多尺度图像特征,其中,待处理图像的内容包括文本;多尺度图像特征包括用于表征文本的结构信息和内容信息的特征;基于注意力机制,对多尺度图像特征进行处理,得到与文本相匹配的目标图像特征;以及基于文本生成指令,对目标图像特征进行处理,生成与文本生成指令对应的目标文本信息。
-
公开(公告)号:CN112784829B
公开(公告)日:2024-05-21
申请号:CN202110084184.4
申请日:2021-01-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/0985
Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。
-
公开(公告)号:CN116110056B
公开(公告)日:2023-09-26
申请号:CN202211710611.6
申请日:2022-12-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种信息抽取方法及装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及图像处理领域。具体实现方案为:获取文档图像对应的视觉文本特征;采用单元压缩Transformers网络对所述视觉文本特征进行编码,得到处理后的特征,以使任一层Transformer的输入特征长度与输出特征长度相同;根据所述视觉文本特征对应的结构信息,对所述处理后的特征进行信息抽取,获取所述文档图像对应的信息抽取结果。采用上述方案的本公开可以降低模型计算量的同时提高信息抽取的准确性。
-
公开(公告)号:CN115130473B
公开(公告)日:2023-08-25
申请号:CN202210419163.8
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06F18/25 , G06V30/416 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/0895
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
公开(公告)号:CN116311298A
公开(公告)日:2023-06-23
申请号:CN202310023539.8
申请日:2023-01-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了一种信息生成方法、信息处理方法、装置、电子设备以及介质,涉及人工智能技术领域,尤其涉及深度学习技术、图像处理技术和计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:对文本图像进行文本检测,得到检测信息,检测信息包括多个文本区域各自的类别信息和位置信息;根据位置信息和文本图像,获取与多个文本区域各自对应的文本区域图像;对文本区域图像进行文本识别,得到识别信息,识别信息包括多个文本区域图像各自的文本识别信息;根据识别信息,确定语义关系信息,语义关系信息包括多个文本识别信息之间的语义关系;根据类别信息、语义关系信息和识别信息,生成文本图像的结构化信息。
-
公开(公告)号:CN115294349B
公开(公告)日:2023-06-02
申请号:CN202210751884.9
申请日:2022-06-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了训练模型的方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对原始图像进行掩码处理,得到掩码图像;基于预设模型对掩码图像进行编码处理,得到编码序列;基于编码序列进行图像重建,得到重建图像;基于重建图像及原始图像对预设模型的模型参数进行调整,得到目标模型。
-
公开(公告)号:CN116152817A
公开(公告)日:2023-05-23
申请号:CN202211742761.5
申请日:2022-12-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/18 , G06V30/414 , G06V30/42
Abstract: 本公开提供了一种信息处理方法、装置、设备、介质和程序产品,涉及人工智能技术领域,具体为深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。在本公开的一些实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
-
公开(公告)号:CN115984888A
公开(公告)日:2023-04-18
申请号:CN202310023575.4
申请日:2023-01-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/414 , G06V30/19 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种信息生成方法、信息处理方法、装置、电子设备以及介质,涉及人工智能技术领域,尤其涉及深度学习技术、图像处理技术和计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:对文本图像进行文本检测,得到检测信息,其中,检测信息包括第一检测信息和第二检测信息,第一检测信息包括多个第一文本区域各自的类别信息和第一位置信息,第二检测信息包括至少一个第二文本区域各自的第二位置信息;根据第一位置信息和文本图像,获取与多个第一文本区域各自对应的文本区域图像;对文本区域图像进行文本识别,得到识别信息;根据类别信息、第二检测信息和识别信息,生成文本图像的结构化信息。
-
公开(公告)号:CN114818708B
公开(公告)日:2023-04-18
申请号:CN202210419183.5
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06V30/414 , G06V30/416 , G06V30/19 , G06V10/766 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0895
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:对第一图像进行特征处理,得到所述第一图像中第一文档的第一语义特征,所述第一语义特征是对所述第一图像的第一图像特征进行语义编码得到的,所述第一文档包括文本行;截取所述第一语义特征中所述文本行的区域特征进行解码,得到所述文本行的第一识别信息,所述第一识别信息包括所述文本行的第一文本序列和所述第一文本序列中各文本单元的第一类别标记;从所述第一文本序列中抽取关键信息,所述关键信息包括所述第一文本序列中第一类别标记表征为命名实体的文本单元。
-
-
-
-
-
-
-
-
-