-
公开(公告)号:CN114550177A
公开(公告)日:2022-05-27
申请号:CN202210182337.3
申请日:2022-02-25
Applicant: 北京百度网讯科技有限公司
Inventor: 刘经拓
Abstract: 本公开提供了一种图像处理的方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域。包括:对获取到的样本图像进行预处理,得到样本图像中字段分别对应的位置信息、图像块、以及文本内容,根据字段分别对应的位置信息、图像块、以及文本内容,对字段的位置信息进行掩码预测,得到预测结果,根据预测结果训练得到文本识别模型,文本识别模型用于对待识别图像进行文本识别,通过融合样本图像的多个维度的内容进行“预训练”,使得“预训练”具有较高的全面性和可靠性,当基于预测结果生成文本识别模型时,使得文本识别模型具有较高的准确性,进而当基于文本识别模型进行文本识别时,提高文本识别的可靠性。
-
公开(公告)号:CN114399769A
公开(公告)日:2022-04-26
申请号:CN202210279539.X
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V10/764 , G06N3/08
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN113343997B
公开(公告)日:2022-04-19
申请号:CN202110547936.6
申请日:2021-05-19
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/148 , G06T3/40
Abstract: 本公开提供了光学字符识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:根据多帧图像以增量式的方式生成多个第一拼接图像;获取一个待识别的第一拼接图像;根据已识别的第一拼接图像对应的识别结果对待识别的第一拼接图像进行切分,得到第二拼接图像;对第二拼接图像进行光学字符识别,得到第二拼接图像对应的识别结果;以及将已识别的第一拼接图像对应的识别结果和第二拼接图像对应的识别结果合并,得到待识别的第一拼接图像对应的识别结果。无需整图进行识别,有效地将连续帧间的文字组织在一起,增强了识别效果,可应用于图像识别场景下的文字识别。
-
公开(公告)号:CN114120074A
公开(公告)日:2022-03-01
申请号:CN202111306870.8
申请日:2021-11-05
Applicant: 北京百度网讯科技有限公司
Abstract: 根据本公开的实施例,提供了基于语义增强的图像识别模型的训练方法和装置、用于图像识别的方法和装置、电子设备以及计算机可读存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景。基于语义增强的图像识别模型的训练方法包括:从输入的未标注且无文字描述的第一图像中,提取第一图像的第一特征表示;基于第一特征表示,计算第一损失函数;从输入的未标注且具有原始文字描述的第二图像中,提取第二图像的第二特征表示;基于第二特征表示,计算第二损失函数;和基于第一损失函数和第二损失函数的融合,训练图像识别模型。以此方式,能够更有效且低成本地对图像识别模型进行训练。
-
公开(公告)号:CN113947195A
公开(公告)日:2022-01-18
申请号:CN202111212328.6
申请日:2021-10-18
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/04 , G06N3/08 , G06F16/36 , G06V10/764 , G06V10/774 , G06K9/62
Abstract: 本公开提供了一种模型确定方法、装置、电子设备和存储器,涉及计算机技术领域,尤其涉及计算机视觉和深度学习领域,可应用于图像处理、图像识别等场景。具体实现方案为:获取第一图像样本和第一文本样本;对第一图像样本和第一文本样本进行训练,得到第一目标模型,其中,第一目标模型学习到第一文本样本的局部特征;获取第二图像样本和第二文本样本,并基于第二图像样本和第二文本样本对第一目标模型进行训练,得到第二目标模型,第二目标模型学习到第二文本样本的全局特征;将第二目标模型确定为第三目标模型的初始化模型,初始化模型的训练效果低的技术问题。
-
公开(公告)号:CN113657399A
公开(公告)日:2021-11-16
申请号:CN202110951785.0
申请日:2021-08-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别模型的训练方法,涉及人工智能领域,尤其涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融等场景。该方法包括:将第一样本图像输入视觉特征提取子模型,得到第一视觉特征和第一预测文字,该第一样本图像包括文字和指示第一实际文字的标签;基于第一预测文字,采用语义特征提取子模型得到第一语义特征;基于第一视觉特征和第一语义特征,采用序列子模型得到第二预测文字;以及基于第一预测文字、第二预测文字和第一实际文字,对文字识别模型进行训练。本公开还提供一种文字识别模型的训练装置、文字识别方法及装置、电子设备及存储介质。
-
公开(公告)号:CN113656668A
公开(公告)日:2021-11-16
申请号:CN202110955328.9
申请日:2021-08-19
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/908
Abstract: 本公开提供了一种用于多模态信息库的检索方法、管理方法,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于图像识别和图像搜索等场景下。实现方案为:响应于接收到包括第一模态信息的检索信息,使用第一多模态特征提取模块,从检索信息的第一模态信息中提取检索信息的第一模态特征;基于检索信息的第一模态特征与多条目标信息中的每条目标信息的第一模态特征和第二模态特征中的每一个的相似度,选择多条目标信息中的第一组目标信息;以及基于第一组目标信息,生成检索结果。
-
公开(公告)号:CN113591864A
公开(公告)日:2021-11-02
申请号:CN202110858410.X
申请日:2021-07-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型框架的训练方法、装置及系统,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。包括:基于预设的文本检测模型对样本图像进行特征处理,得到与样本图像中文本信息相关的至少两种特征信息,基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理,得到样本图像的融合特征,将融合特征输入至特征融合模型,基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整,得到文本识别模型框架,文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性,从而实现了训练过程的完整性和全面性,提高了文本识别模型框架的准确性和可靠性。
-
公开(公告)号:CN113378580A
公开(公告)日:2021-09-10
申请号:CN202110697993.2
申请日:2021-06-23
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。
-
公开(公告)号:CN113343981A
公开(公告)日:2021-09-03
申请号:CN202110666440.0
申请日:2021-06-16
Applicant: 北京百度网讯科技有限公司
Abstract: 根据本公开的实施例,提供了一种视觉特征增强的字符识别方法、装置和设备。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。具体方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的中的字符的字符视觉语义特征;以及基于字符视觉语义特征,对字符进行识别。由此,能够提升文本识别的准确率。
-
-
-
-
-
-
-
-
-