-
公开(公告)号:CN111782840A
公开(公告)日:2020-10-16
申请号:CN202010616632.6
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/532 , G06F16/583 , G06K9/00 , G06K9/46 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括节点特征和边特征;基于上述节点特征和边特征,对节点特征进行更新,以得到更新视觉图;基于输入问题,确定问题特征;对更新视觉图和问题特征进行融合处理,以得到融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN111767379A
公开(公告)日:2020-10-13
申请号:CN202010603698.1
申请日:2020-06-29
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/332 , G06N3/04 , G06N3/08 , G06K9/62 , G06F40/211 , G06F40/30
Abstract: 本申请公开了图像问答方法、装置、设备以及存储介质,涉及图像处理、计算机视觉、深度学习以及自然语言处理技术领域。具体实现方案为:根据查询语句,构建具有拓扑结构的问题图以及提取查询语句的问题特征;根据与查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图;根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。本申请实施例由于将基于目标图像和查询语句所构建视觉图、文本图和问题图进行跨模态的融合,因此可以获取到目标图像在不同模态下的关注点,从而能够在此基础上根据查询语句的意图更加准确的识别出图像问答的答案。
-
公开(公告)号:CN111260586A
公开(公告)日:2020-06-09
申请号:CN202010066508.7
申请日:2020-01-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。
-
公开(公告)号:CN116597454B
公开(公告)日:2024-07-12
申请号:CN202310597526.1
申请日:2023-05-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。
-
公开(公告)号:CN116503686B
公开(公告)日:2024-07-02
申请号:CN202310318509.X
申请日:2023-03-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06T5/00
Abstract: 本公开提供了图像矫正模型的训练方法、图像矫正方法、装置及介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;基于目标损失调整图像矫正模型的参数。本公开实施例中,基于第一损失使得图像矫正模型输出的偏移图能够关心图像中心区域,基于第二损失使得偏移图能够适应复杂的背景和边缘的形变,由此训练得到的图像矫正模型,具有很好的泛化能力和鲁棒性。
-
公开(公告)号:CN111782838B
公开(公告)日:2024-04-05
申请号:CN202010616310.1
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N5/04 , G06F18/25 , G06F40/30 , G06V20/70 , G06V10/44 , G06V10/74 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/0985
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括第一节点特征和第一边特征;基于输入问题,构建问题图,问题图包括第二节点特征和第二边特征;对视觉图和问题图进行多模态融合,以得到更新视觉图和更新问题图;基于输入问题,确定问题特征;基于更新视觉图、更新问题图和问题特征,确定融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN116486420B
公开(公告)日:2024-01-12
申请号:CN202310389021.6
申请日:2023-04-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/40 , G06V30/19 , G06V10/82 , G06F40/279 , G06F40/30 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征(56)对比文件Wang Wenshan et al..Dynamicinteraction networks for image-textmultimodal learning《.Neurocomputing》.2020,第379卷262-272.李晓腾.面向社交媒体的命名实体识别方法研究《.中国优秀硕士学位论文全文数据库 (信息科技辑)》.2023,第I138-4297页.
-
公开(公告)号:CN115376137B
公开(公告)日:2023-09-26
申请号:CN202210921816.2
申请日:2022-08-02
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V30/413 , G06V30/19
Abstract: 本公开提供了一种光学字符识别处理方法、文本识别模型训练方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等领域,可应用于光学字符识别等场景。具体实现方案为:获取文本样本。其中,文本样本中包括文本图像和文本像素信息。分割文本图像中的前景和背景,得到与文本图像中文本相对应的前景图像。基于前景图像和文本像素信息,进行OCR处理。本公开通过对文本图像进行图像分割以得到文本对应的前景图像,并结合前景图像和文本像素信息进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别,可以有效区分相似的形近字,使得OCR识别的结果更加准确。
-
公开(公告)号:CN114428677B
公开(公告)日:2023-09-12
申请号:CN202210110164.4
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
IPC: G06F9/48
Abstract: 本公开提供了一种任务处理方法、处理装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:响应于接收到任务处理请求,根据任务处理请求指示的任务类型标识,对待处理的标注数据进行解析,得到任务标注数据,其中,任务标注数据的标签信息与任务类型标识相匹配,任务标注数据包括第一任务标注数据和第二任务标注数据;利用第一任务标注数据训练待训练模型,得到多个候选模型,其中,待训练模型是根据任务类型标识确定的;根据利用第二任务标注数据对多个候选模型进行性能评估得到的性能评估结果,从多个候选模型中确定目标模型。
-
公开(公告)号:CN113033346B
公开(公告)日:2023-08-04
申请号:CN202110261196.X
申请日:2021-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/414 , G06V30/146 , G06V30/18 , G06N20/00
Abstract: 本公开公开了文本检测方法、装置和电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。具体实现方案为:根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标;采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理,得到过滤文本框的角点坐标;根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标,从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框;根据所述多个候选文本框生成目标文本框。由此,能够提高网络感受野,进而增强文本检测效果,尤其增强长文本检测效果,适用于光学字符识别等文本检测应用场景。
-
-
-
-
-
-
-
-
-