-
公开(公告)号:CN113971810A
公开(公告)日:2022-01-25
申请号:CN202111260590.8
申请日:2021-10-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/414 , G06V10/774 , G06V10/82 , G06V10/764 , G06K9/62
Abstract: 本公开提供了文档生成方法、装置、平台、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于文字识别等场景。具体实现方案为:对文档图片进行类别识别,得到目标类别结果;确定与目标类别结果相匹配的目标结构化模型;以及利用目标结构化模型,对文档图片进行结构识别,得到结构识别结果,以便基于结构识别结果生成电子文档,结构识别结果包括字段属性识别结果和字段位置识别结果。
-
公开(公告)号:CN113971806A
公开(公告)日:2022-01-25
申请号:CN202111248583.6
申请日:2021-10-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/194 , G06V30/24 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种模型训练、字符识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景下。具体实现方案为:获得场景图像、所述场景图像中的第二实际字符和第二构建图像;采用所述待训练模型对所述场景图像进行字符识别,得到字符识别过程中提取的字符的第一特征和第一识别字符;采用所述辅助训练模型对所述第二构建图像进行字符识别,得到字符识别过程中提取的字符的第二特征;基于所述第一识别字符、第二实际字符、第一特征和第二特征,对所述待训练模型的模型参数进行调整,得到字符识别模型。应用本公开实施例提供的方案能够训练得到用于进行字符识别的模型。
-
公开(公告)号:CN113780098A
公开(公告)日:2021-12-10
申请号:CN202110945259.3
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了文字识别方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:采用骨干网络对待识别的目标图像进行特征提取,得到特征图;将特征图输入第一网络,以预测特征图中的各特征点是否属于文本框,以及所属的文本框在目标图像中的位置;将特征图输入第二网络,以预测特征图中各特征点所属文本框之间的关联关系;根据各文本框的位置,对目标图像中对应图像内容进行文字识别,得到各文本框对应的文字内容;根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息。由此,提高了文字识别的准确性。
-
公开(公告)号:CN113762109A
公开(公告)日:2021-12-07
申请号:CN202110970305.5
申请日:2021-08-23
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。
-
公开(公告)号:CN113033431A
公开(公告)日:2021-06-25
申请号:CN202110341261.X
申请日:2021-03-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种光学字符识别模型训练和识别方法、装置、设备及介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术,可用于OCR场景下。具体实现方案为:对样本图像进行特征提取,得到样本特征数据;将所述样本特征数据输入至光学字符识别模型,以确定所述样本特征数据中的文字区域对应的局部特征数据,并提取所述局部特征数据中的语义信息,根据所述语义信息,确定所述文字区域的预测类别;根据所述预测类别和所述文字区域的标签类别,对所述光学字符识别模型进行训练。本公开提高了光学字符识别模型的类别预测结果的准确度。
-
公开(公告)号:CN117114063B
公开(公告)日:2025-01-17
申请号:CN202311110301.5
申请日:2023-08-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82
Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。
-
公开(公告)号:CN114445811B
公开(公告)日:2024-10-01
申请号:CN202210113499.1
申请日:2022-01-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于OCR等应用场景。具体实现方案为:将目标样本图像、所述目标样本图像的检测结果输入至预先经过训练的特征提取模型,得到所述特征提取模型输出的所述目标样本图像的目标样本特征;针对每个候选样本图像,将所述候选样本图像和所述候选样本图像的检测结果输入至所述特征提取模型,得到所述特征提取模型输出的所述候选样本图像的候选样本特征;从各所述候选样本图像中选取匹配候选样本图像,作为用于训练目标检测模型的样本图像。可以筛选出能够对目标检测模型定向训练的样本图像,以提高目标检测模型的准确性。
-
公开(公告)号:CN118629054A
公开(公告)日:2024-09-10
申请号:CN202410749748.5
申请日:2024-06-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19
Abstract: 本公开提供了文字识别模型的样本确定的方法及装置。本公开涉及人工智能技术领域,具体涉及计算机视觉、深度学习、图像处理、文字识别等技术领域,可应用于智慧城市、智慧金融等场景。基于初始的第一文字识别模型,得到更新后的第一训练集;使用更新后的第一训练集对初始的第一文字识别模型进行再训练,得到更新后的第一文字识别模型;基于更新后的第一文字识别模型,得到再次更新后的第一训练集;基于再次更新后的第一训练集,对该更新后的第一文字识别模型进行再训练,直到满足第一预设条件;根据训练得到目标第一文字识别模型采用的第一训练集,确定第一类样本集。
-
公开(公告)号:CN112508005B
公开(公告)日:2023-11-17
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN113313022B
公开(公告)日:2023-11-10
申请号:CN202110587936.9
申请日:2021-05-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/19 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/044
Abstract: 本公开提供了一种文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质,应用于人工智能技术领域,具体应用于计算机视觉和深度学习技术领域,可应用于图像识别场景下。文字识别模型的训练方法的具体实现方案为:以第一目标图像作为第一文字识别模型的输入,获得第一特征图;以样本图像作为第二文字识别模型的输入,获得第二特征图,其中,第二文字识别模型以第一文字识别模型作为初始模型;基于第一特征图和第二特征图的差异,确定第一损失值;以及基于第一损失值,对第二文字识别模型进行训练。其中,第一目标图像与样本图像包括相同的文字,且第一目标图像以目标格式表示文字。
-
-
-
-
-
-
-
-
-