文档识别方法、装置、电子设备和存储介质

    公开(公告)号:CN118334686A

    公开(公告)日:2024-07-12

    申请号:CN202410515507.4

    申请日:2024-04-26

    Abstract: 本发明提供一种文档识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:获取用户输入的识别需求信息,所述识别需求信息包括至少一个第一待识别要素;针对各所述第一待识别要素,在确定识别模式为精细模式的情况下,基于所述第一待识别要素对待识别文档图片进行要素分割,得到所述第一待识别要素对应的要素分割结果;基于所述要素分割结果生成第一提示信息;从所述待识别文档图片中确定与所述第一提示信息对应的第一待识别要素信息;基于所述第一提示信息对所述第一待识别要素信息进行识别,得到第一识别结果。本发明实现了文档图片的个性化识别,且降低了识别结果的序列长度。

    针对教辅图像的图像质量的分类方法、装置及设备

    公开(公告)号:CN111091158B

    公开(公告)日:2024-04-30

    申请号:CN201911360386.6

    申请日:2019-12-25

    Abstract: 本申请提供了一种针对教辅图像的图像质量的分类方法,获取第一图像块集合以及第二图像块集合。其中,第一图像块集合中包括从待分类的图像中选取的图像块,第二图像块集合中包括从待分类的图像的印刷重建图像中选择的图像块。第一图像块集合中的图像块与第二图像块集合中的图像块一一对应,对应的图像块为位置信息相同的图像块。进一步依据第一图像块集合和第二图像块集合,确定待分类图像的质量分类结果。本申请获取的质量分类结果既可以对待分类的图像的原始数字图像进行质量评估,也可以对待分类的图像的打印图像进行质量评估。并且,在任意一个图像块集合中,图像块之间的结构不相似,由此保证了采样的多样性,从而提高评估结果的准确性。

    二维图形速算题作答批改方法、装置、设备及存储介质

    公开(公告)号:CN117789239A

    公开(公告)日:2024-03-29

    申请号:CN202311564044.2

    申请日:2023-11-20

    Abstract: 本申请公开了一种二维图形速算题作答批改方法、装置、设备及存储介质,获取对纸质作答试卷拍摄的图片,从图片中识别出包含二维图形速算题的二维速算块区域;识别二维速算块区域包含的基础结构,及每一基础结构中包含的字符,基础结构为预先定义的组成二维图形速算题的最小结构单元,字符包括印刷体字符和/或手写体字符;针对识别出的每一基础结构,按照预配置的与基础结构对应的批改规则,结合基础结构包含的字符进行作答批改,得到基础结构的批改结果,由各基础结构的批改结果组成二维图形速算题的第一作答批改结果。本申请无需提前录入试题的答案,通过对二维图形速算题对应图像进行分析,即可实现自动批改,成本更低、泛化性更强。

    视频合成方法、装置、设备及存储介质

    公开(公告)号:CN117750125A

    公开(公告)日:2024-03-22

    申请号:CN202311872648.3

    申请日:2023-12-29

    Abstract: 本申请公开了一种视频合成方法、装置、设备及存储介质支持多模态条件信息控制下的视频合成,方法包括:获取指定的初始图像,及与待合成视频匹配的多模态条件信息,所述多模态条件信息包括与所述待合成视频匹配的音频信息和/或文本描述信息;提取所述初始图像对应的初始骨架图;以所述多模态条件信息作为控制条件,利用配置的扩散模型在所述控制条件的指导下,生成与所述多模态条件信息语义匹配的连续骨架图,由所述初始骨架图及生成的所述连续骨架图依序组成目标骨架图序列;基于所述目标骨架图序列对所述初始图像的图像特征进行变形,以生成视频序列。实现了根据用户的合成要求,对初始图像进行视频合成的目的,满足用户个性化的合成需求。

    一种文字识别方法、系统以及相关装置

    公开(公告)号:CN117671707A

    公开(公告)日:2024-03-08

    申请号:CN202311543468.0

    申请日:2023-11-15

    Abstract: 本申请公开了一种提供一种文字识别方法、系统以及相关装置,该方法包括:获取待识别图像的初始特征;基于上一解码轮次对应的解码区域,获取当前解码轮次中所述待识别图像对应的解码步长;其中,所述解码区域与所述待识别图像中的部分区域匹配;基于所述解码步长和所述初始特征,获取所述当前解码轮次对应的当前解码特征;基于所述当前解码特征,获取所述当前解码轮次对应的解码文字。通过上述方式,本申请能够提高文字识别的效率和准确性。

    表格全要素抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN117612190A

    公开(公告)日:2024-02-27

    申请号:CN202311362989.6

    申请日:2023-10-19

    Abstract: 本发明提供一种表格全要素抽取方法、装置、电子设备及存储介质,该方法包括:获取目标表格中各初始单元格和各单元格文本;基于各初始单元格的各第一顶点的位置,确定与初始单元格对应的单元格,并基于各单元格的相对位置确定目标表格的结构信息,单元格之间具有公共的顶点;基于目标表格的结构信息和各单元格文本,确定目标表格中各单元格的属性信息,属性信息包括键或值;基于目标表格的结构信息和各单元格的属性信息,抽取目标表格中的全要素。基于目标表格的结构信息和各单元格的属性信息,可以正确抽取属性信息相对应的各要素,避免抽取的各要素的属性信息不对应的情况,进而可以提高要素抽取的准确度。

    要素内容抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN117576700A

    公开(公告)日:2024-02-20

    申请号:CN202311512589.9

    申请日:2023-11-10

    Abstract: 本发明提供一种要素内容抽取方法、装置、电子设备及存储介质,该方法包括:获取目标图片中各文本行的文本;分别提取各文本行的文本各自对应的第一句子级token,以及至少一个问题文本对应的第二句子级token,各问题文本包括要素字段;将各第一句子级token和各第二句子级token均输入要素抽取模型,得到要素抽取模型输出的要素字段对应的要素内容。针对文本行整体提取该文本行对应的第一句子级token,可实现第一句子级token与文本行一一对应,因此,有效增加了token表征的文本内容的长度,即使在输入的token总数量受限的情况下,也能输入较长的文本,并能对该文本进行要素内容提取,提高了适用性。

    电子菜单生成方法、装置和设备

    公开(公告)号:CN111192346B

    公开(公告)日:2024-02-13

    申请号:CN201911368067.X

    申请日:2019-12-26

    Abstract: 本发明公开了一种电子菜单生成方法、装置和设备。其中方法具体是基于文本检测识别技术与图像处理技术,针对原始菜单图像进行结构化分析,根据菜单上的排版特征信息将菜单上的文本块识别为菜名和价格,然后将菜名与对应价格关联起来,并根据关联关系生成电子菜单,由于无需事先准备包含产品信息的数据库用以识别和检测,因此可以极大地拓宽了其适用范围,而且提高电子菜单生成效率,能够快速将纸质菜单转换为电子菜单,供商家和用户使用。并且,本发明还相应地提供了一种计算机可读存储介质以及一种计算机程序产品。

    目标跟踪方法和装置
    29.
    发明公开

    公开(公告)号:CN117541621A

    公开(公告)日:2024-02-09

    申请号:CN202311491068.X

    申请日:2023-11-07

    Abstract: 本发明提供一种目标跟踪方法和装置,该方法包括:根据多个目标对象中的各个目标对象的历史轨迹、各个目标对象对应的目标帧间隔和扩展卡尔曼滤波模型,确定各个目标对象在当前图像帧中的预测框;将当前图像帧输入至三维检测模型,输出当前图像帧中所有目标对象所对应的多个检测框;将各个目标对象在当前图像帧中的预测框和当前图像帧中的多个检测框进行匹配,得到各个目标对象的跟踪结果。本发明的方法通过引入扩展卡尔曼滤波和目标帧间隔,从而在某些帧数据丢失或者缺失的情况下,仍然可以利用扩展卡尔曼滤波模型更好的感知时间维度的信息,动态地调整缺帧后的预测范围,有效地提升了轨迹预测结果的准确性,实现了多目标的准确高效的跟踪。

Patent Agency Ranking