-
公开(公告)号:CN117114063B
公开(公告)日:2025-01-17
申请号:CN202311110301.5
申请日:2023-08-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82
Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。
-
公开(公告)号:CN114445811B
公开(公告)日:2024-10-01
申请号:CN202210113499.1
申请日:2022-01-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于OCR等应用场景。具体实现方案为:将目标样本图像、所述目标样本图像的检测结果输入至预先经过训练的特征提取模型,得到所述特征提取模型输出的所述目标样本图像的目标样本特征;针对每个候选样本图像,将所述候选样本图像和所述候选样本图像的检测结果输入至所述特征提取模型,得到所述特征提取模型输出的所述候选样本图像的候选样本特征;从各所述候选样本图像中选取匹配候选样本图像,作为用于训练目标检测模型的样本图像。可以筛选出能够对目标检测模型定向训练的样本图像,以提高目标检测模型的准确性。
-
公开(公告)号:CN118629054A
公开(公告)日:2024-09-10
申请号:CN202410749748.5
申请日:2024-06-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19
Abstract: 本公开提供了文字识别模型的样本确定的方法及装置。本公开涉及人工智能技术领域,具体涉及计算机视觉、深度学习、图像处理、文字识别等技术领域,可应用于智慧城市、智慧金融等场景。基于初始的第一文字识别模型,得到更新后的第一训练集;使用更新后的第一训练集对初始的第一文字识别模型进行再训练,得到更新后的第一文字识别模型;基于更新后的第一文字识别模型,得到再次更新后的第一训练集;基于再次更新后的第一训练集,对该更新后的第一文字识别模型进行再训练,直到满足第一预设条件;根据训练得到目标第一文字识别模型采用的第一训练集,确定第一类样本集。
-
公开(公告)号:CN112508005B
公开(公告)日:2023-11-17
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN113313022B
公开(公告)日:2023-11-10
申请号:CN202110587936.9
申请日:2021-05-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/19 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/044
Abstract: 本公开提供了一种文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质,应用于人工智能技术领域,具体应用于计算机视觉和深度学习技术领域,可应用于图像识别场景下。文字识别模型的训练方法的具体实现方案为:以第一目标图像作为第一文字识别模型的输入,获得第一特征图;以样本图像作为第二文字识别模型的输入,获得第二特征图,其中,第二文字识别模型以第一文字识别模型作为初始模型;基于第一特征图和第二特征图的差异,确定第一损失值;以及基于第一损失值,对第二文字识别模型进行训练。其中,第一目标图像与样本图像包括相同的文字,且第一目标图像以目标格式表示文字。
-
公开(公告)号:CN113762109B
公开(公告)日:2023-11-07
申请号:CN202110970305.5
申请日:2021-08-23
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/413 , G06V30/414 , G06V10/82
Abstract: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。
-
公开(公告)号:CN113255664B
公开(公告)日:2023-10-20
申请号:CN202110576183.1
申请日:2021-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146
Abstract: 本公开提供了图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机视觉和深度学习等人工智能技术领域,可应用于图像识别场景下。该方法的一具体实施方式包括:确定待处理图像在不同分辨率下构成待矫正对象的像素点的三维坐标,得到三维预测坐标后,根据该三维预测坐标确定该待矫正对象的表面扭曲参数,最终根据该三维预测坐标和该表面扭曲参数生成该待矫正对象的平面图像。该实施方式基于不同分辨率的待处理图像进行三维坐标预测,以更精准的确定待矫正对象的表面扭曲参数,实现更为精准的图像扭曲矫正,提升图像识别、矫正结果的质量。
-
公开(公告)号:CN111709339B
公开(公告)日:2023-09-19
申请号:CN202010517447.1
申请日:2020-06-09
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/40 , G06V30/146 , G06V30/14 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N5/04
Abstract: 本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
-
公开(公告)号:CN114299522B
公开(公告)日:2023-08-29
申请号:CN202210023327.5
申请日:2022-01-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像识别方法装置、设备和存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:基于待识别图像的特征图,得到多个键实例特征和多个值实例特征;将所述多个键实例特征和所述多个值实例特征进行匹配,得到多个实例特征组合;对所述多个实例特征组合中的每个实例特征组合中的键实例特征和值实例特征进行融合,得到所述每个实例特征组合所对应的融合特征;基于与所述多个实例特征组合分别对应的多个融合特征,得到所述待识别图像的多个键值识别结果。根据本公开的技术,可以充分利用图像中键实例丰富的语义信息,帮助值实例实现更好的分类解析,输出更加准确的图像识别结果。
-
公开(公告)号:CN116486420A
公开(公告)日:2023-07-25
申请号:CN202310389021.6
申请日:2023-04-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/40 , G06V30/19 , G06V10/82 , G06F40/279 , G06F40/30 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征具有更强语义表示的融合特征,从而提升了文档图像中实体抽取的准确率。
-
-
-
-
-
-
-
-
-