文本检测模型的训练方法和检测文本方法、装置和设备

    公开(公告)号:CN113657390A

    公开(公告)日:2021-11-16

    申请号:CN202110934294.5

    申请日:2021-08-13

    Abstract: 本公开提供了一种文本检测模型的训练方法和检测文本的方法,涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于图像处理和图像识别等场景下。训练方法包括:将样本图像输入文本检测模型的文本特征提取子模型,得到样本图像中文本的文本特征;该样本图像具有指示实际位置信息和实际类别的标签;将预定文本向量输入文本检测模型的文本编码子模型,得到文本参考特征;将文本特征和文本参考特征输入文本检测模型的解码子模型,得到文本序列向量;将文本序列向量输入文本检测模型的输出子模型,得到预测位置信息和预测类别;以及基于预测类别、实际类别、预测位置信息和实际位置信息,对文本检测模型进行训练。

    文字识别方法、装置、设备、存储介质和智能词典笔

    公开(公告)号:CN113642584A

    公开(公告)日:2021-11-12

    申请号:CN202110934110.5

    申请日:2021-08-13

    Abstract: 本公开公开了一种文字识别方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取针对文档连续扫描得到的多个图像序列;基于多个图像序列进行图像拼接,得到对应的多个连续拼接图像帧,其中,两两连续拼接图像帧之间存在重叠区域;基于多个连续拼接图像帧进行文字识别,得到对应的多个识别结果;以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域,对多个识别结果进行去重处理,得到针对文档的文字识别结果。

    确定字符序列的方法、装置和电子设备

    公开(公告)号:CN113361522A

    公开(公告)日:2021-09-07

    申请号:CN202110698215.5

    申请日:2021-06-23

    Abstract: 本公开提供了用于确定字符序列的方法、装置、电子设备和计算机可读存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市、智慧金融场景下。具体实现方案为:确定原始图像的图像特征数据;基于图像特征数据确定第一字符特征数据,第一字符特征数据至少包括原始图像中包括的多个字符的相应字符特征数据;基于第一字符特征数据,确定由多个字符组成的目标字符序列;从目标字符序列中获取第二字符特征数据,第二字符特征数据包含字符特征信息和字符序列特征信息;以及基于图像特征数据和第二字符特征数据,确定多个字符的更新的目标字符序列。本公开提升了字符序列识别结果的正确率,改善了用户体验。

    用于检测图像中的文本区域的方法、装置、设备以及介质

    公开(公告)号:CN110147786B

    公开(公告)日:2021-06-29

    申请号:CN201910290330.1

    申请日:2019-04-11

    Abstract: 根据本公开的示例实施例,提供了一种用于检测图像中的文本区域的方法、装置、设备以及介质。方法包括基于图像的特征表示来检测图像中的第一文本区域,其中第一文本区域覆盖图像中所占区域具有一定形状的文本。方法还包括基于第一文本区域的特征块来确定与文本相关联的文本几何信息,其中文本几何信息包括文本的文本中心线以及文本中心线与文本的上下边界的距离信息。方法还包括基于与文本相关联的文本几何信息来将第一文本区域调整为第二文本区域,其中第二文本区域也覆盖文本并且比第一文本区域更小。本公开的实施例在通用文本检测模块的基础上增加一个任意形状文本检测模块,能够获得更紧凑的文本检测结果,从而提高图像文本检测的精度。

    字符识别方法、模型训练方法、相关装置及电子设备

    公开(公告)号:CN113011420A

    公开(公告)日:2021-06-22

    申请号:CN202110261383.8

    申请日:2021-03-10

    Abstract: 本申请公开了字符识别方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取目标图片;对所述目标图片进行特征编码,得到所述目标图片的视觉特征;对所述视觉特征进行特征映射,得到所述目标图片的第一目标特征,所述第一目标特征为与所述目标图片的字符语义信息的特征具有匹配空间的特征;将所述第一目标特征输入至字符识别模型进行字符识别,以得到所述目标图片的第一字符识别结果。根据本申请的技术,解决了字符识别技术存在的字符识别准确性比较低的问题,提高了对图片进行字符识别的准确性。

    一种票据信息的提取方法、装置、电子设备及存储介质

    公开(公告)号:CN112784829A

    公开(公告)日:2021-05-11

    申请号:CN202110084184.4

    申请日:2021-01-21

    Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。

    文字结构化提取方法、装置、设备以及存储介质

    公开(公告)号:CN112001368A

    公开(公告)日:2020-11-27

    申请号:CN202011049097.7

    申请日:2020-09-29

    Abstract: 本申请实施例公开了文字结构化提取方法、装置、设备以及存储介质,涉及计算机视觉、深度学习、自然语言处理等人工智能领域。该方法的一具体实施方式包括:对实体文本图像进行文字检测,得到实体文本图像的文字行的位置和内容;基于文字行的位置和内容,提取文字行的多元信息;对文字行的多元信息进行特征融合,得到文字行的多模态融合特征;基于文字行的多模态融合特征进行类别和关系推理,得到文字行的类别和关系概率矩阵;基于文字行的类别和关系概率矩阵,构建实体文本图像的结构化信息。该实施方式提供了一种基于类别和关系推理的文字结构化提取方法,适合大规模、自动化处理,应用范围广,且通用性强。

    用于处理图像的方法、装置、设备以及存储介质

    公开(公告)号:CN111723769A

    公开(公告)日:2020-09-29

    申请号:CN202010613379.9

    申请日:2020-06-30

    Inventor: 章成全 何斌

    Abstract: 本申请公开了一种用于处理图像的方法、装置、设备以及存储介质,涉及人工智能深度学习、计算机视觉、大数据领域。具体实现方案为:获取目标视频,目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧;根据至少一个图像帧中已标注目标对象,确定目标图像帧中针对目标对象的搜索区域;根据搜索区域,确定目标对象的中心位置信息;根据至少一个图像帧的标注区域以及中心位置信息,确定目标对象区域;根据目标对象区域,分割目标图像帧。本实现方式可以鲁棒地定位目标对象并提供精细的目标分割结果。

    一种字符识别方法、装置、设备和存储介质

    公开(公告)号:CN111507355A

    公开(公告)日:2020-08-07

    申请号:CN202010307924.1

    申请日:2020-04-17

    Abstract: 本申请公开了一种字符识别方法、装置、设备和存储介质,涉及字符识别技术领域。具体实现方案为:获取待识别对象中目标字符位置的第一视觉特征;依据所述第一视觉特征生成所述目标字符位置的语义特征;基于所述第一视觉特征和所述语义特征,识别所述目标字符位置的字符。本申请可以提高字符识别的效果。

Patent Agency Ranking