-
公开(公告)号:CN112784829B
公开(公告)日:2024-05-21
申请号:CN202110084184.4
申请日:2021-01-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/0985
Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。
-
公开(公告)号:CN114724133B
公开(公告)日:2024-02-02
申请号:CN202210404529.4
申请日:2022-04-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/146 , G06V30/148 , G06V30/18 , G06V30/19 , G06V30/414 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 中的文字以文本实例为单元进行检测得到检测本公开提供了一种文字检测和模型训练方 结果,文字检测的准确性较高。法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取训练样本,训练样本中包括样本图像和标签图像,标签图像为对所述样本图像上的文本实例进行标注得到的图像;将样本图像输入至文字检测模型,得到文字检测模型输出的分割图像和分割图像的图像类别,其中,图像类别指(56)对比文件CN 112634292 A,2021.04.09CN 105741294 A,2016.07.06CN 113887394 A,2022.01.04陈志毅等.基于deepFM和卷积神经网络的集成式多模态谣言检测方法.计算机科学.2022,第49卷(第1期),101-107.H. T. Basavaraju等.Arbitrary orientedmultilingual text detection andsegmentation using level set and Gaussianmixture model.EvolutionaryIntelligence.2021,881–894.胥杏培;宋余庆;陆虎.一种结合深度学习特征和社团划分的图像分割方法.小型微型计算机系统.2018,(11),2533-2537.梁礼明;黄朝林;石霏;吴健;江弘九;陈新建.融合形状先验的水平集眼底图像血管分割.计算机学报.2016,(07),1678-1692.
-
公开(公告)号:CN115690016A
公开(公告)日:2023-02-03
申请号:CN202211287536.7
申请日:2022-10-20
Applicant: 北京百度网讯科技有限公司
IPC: G06T7/00 , G06T7/11 , G06V10/764 , G06N3/0464
Abstract: 本公开提供了图像质量检测方法、装置、电子设备及存储介质,涉及深度学习、计算机视觉以及图像处理等人工智能领域,其中的方法可包括:对待处理图像进行切分操作,得到M个图像块,M为大于一的正整数,任意两个图像块之间均不存在重叠区域;将M个图像块作为网络分类模型的输入,得到输出的待处理图像的质量分类结果,网络分类模型中包括至少两层卷积层,其中,第一层卷积层为采用深度可分离卷积方式的卷积层。应用本公开所述方案,可提升分类结果的准确性等。
-
公开(公告)号:CN112966522B
公开(公告)日:2022-10-14
申请号:CN202110235776.1
申请日:2021-03-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种图像分类方法,装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习方面。具体实现方案为:将待分类的文档图像输入到预先训练好的神经网络模型中,通过神经网络模型得到待分类的文档图像的各个文本框的特征子图;将各个文本框的特征子图与各个文本框的文本信息对应的语义特征和位置信息对应的位置特征输入至多模态特征融合模型中,通过多模态特征融合模型将三者融合为各个文本框对应的多模态特征;基于各个文本框对应的多模态特征对待分类的文档图像进行分类。本申请实施例能够很好地利用文档图像中存在的语义特征和位置特征,最终达到提升文档图像的分类精度的目的。
-
公开(公告)号:CN114821622A
公开(公告)日:2022-07-29
申请号:CN202210234230.9
申请日:2022-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
公开(公告)号:CN114428677A
公开(公告)日:2022-05-03
申请号:CN202210110164.4
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
IPC: G06F9/48
Abstract: 本公开提供了一种任务处理方法、处理装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:响应于接收到任务处理请求,根据任务处理请求指示的任务类型标识,对待处理的标注数据进行解析,得到任务标注数据,其中,任务标注数据的标签信息与任务类型标识相匹配,任务标注数据包括第一任务标注数据和第二任务标注数据;利用第一任务标注数据训练待训练模型,得到多个候选模型,其中,待训练模型是根据任务类型标识确定的;根据利用第二任务标注数据对多个候选模型进行性能评估得到的性能评估结果,从多个候选模型中确定目标模型。
-
公开(公告)号:CN112837466A
公开(公告)日:2021-05-25
申请号:CN202011501307.1
申请日:2020-12-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种票据识别方法、装置、设备以及存储介质,涉及计算机视觉、自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括:获取票据图像;将票据图像输入预先训练的票据识别模型的特征提取网络层中,得到票据图像的票据关键字段特征图和票据关键字段值特征图;将票据关键字段特征图输入票据识别模型的第一头部网络层中,得到票据关键字段;利用票据识别模型的第二头部网络层对票据关键字段值特征图进行处理,得到票据关键字段值,其中,特征提取网络层分别与第一头部网络层和第二头部网络层连接;基于票据关键字段和票据关键字段值,生成票据图像的结构化信息。
-
公开(公告)号:CN111695518A
公开(公告)日:2020-09-22
申请号:CN202010538181.9
申请日:2020-06-12
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/00 , G06K9/62 , G06F40/186 , G06F40/30
Abstract: 本申请公开了结构化文档信息标注的方法、装置及电子设备,涉及人工智能领域、深度学习领域以及大数据领域。具体实现方案为:获取结构化文档的模板图像以及所述模板图像的至少一个待填充字段的标注信息,所述标注信息包括所述待填充字段的属性值、历史内容以及所述待填充字段在所述模板图像中的历史位置。根据所述待填充字段的属性值、所述待填充字段的历史内容以及所述待填充字段在模板图像中的历史位置,生成所述待填充字段的目标填充信息。根据所述待填充字段的目标填充信息,得到标注的结构化文档的图像。该方法能够实现结构化文档的快速准确的标注。
-
公开(公告)号:CN112508005B
公开(公告)日:2023-11-17
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN113762109B
公开(公告)日:2023-11-07
申请号:CN202110970305.5
申请日:2021-08-23
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/413 , G06V30/414 , G06V10/82
Abstract: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。
-
-
-
-
-
-
-
-
-