一种图像中文本的处理方法及相关装置

    公开(公告)号:CN119784897A

    公开(公告)日:2025-04-08

    申请号:CN202411979165.8

    申请日:2024-12-31

    Abstract: 本申请公开了一种图像中文本的处理方法及相关装置,涉及图像处理技术领域,图像中文本的处理方法包括:获取包含文本的目标图像;对目标图像进行文本行属性检测,得到目标图像中文本行的文本行属性;对目标图像中的文本行进行文字属性识别,得到目标图像中文本行的文字属性;获取用户从文本行属性和文字属性中选取的属性,作为目标文本属性;对目标图像中目标文本属性的文本行进行擦除处理或编辑处理。本申请公开的图像中文本的处理方法,通过对目标图像进行文本属性检测,可获得目标图像中文本行的文本属性,在此基础上,用户可指定文本属性,进而可对目标图像中用户指定的文本属性的文本行进行擦除或编辑处理,从而可得到满足用户要求的图像。

    一种单目手势识别方法及相关装置

    公开(公告)号:CN119360417A

    公开(公告)日:2025-01-24

    申请号:CN202411459811.8

    申请日:2024-10-18

    Abstract: 本申请公开了一种单目手势识别方法及相关装置,涉及手势识别技术领域,单目手势识别方法包括:获取目标手部图像序列;基于预先训练得到的单目3D手部姿态估计模型,获取目标手部图像序列的每个目标手部图像对应的手部3D关键点位置信息,得到目标手部3D关键点位置信息序列,其中,单目3D手部姿态估计模型采用标注有手部3D关键点位置信息的训练手部图像,同时辅以训练手部图像的手部姿态描述文本和/或真实手部3D重建标签训练得到;根据目标手部3D关键点位置信息序列,进行手势识别,得到手势识别结果。本申请公开的单目手势识别方法具有较高的识别精度。

    文档识别方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN119206758A

    公开(公告)日:2024-12-27

    申请号:CN202411467104.3

    申请日:2024-10-21

    Abstract: 本申请公开了一种文档识别方法、装置、相关设备及计算机程序产品,对于待识别文本可以拆分为多页文档图像,并分别提取每页文档图像的视觉特征,可以将多页文档图像的视觉特征同时送入大模型,同时提取第一文档识别指令的文本特征也送入大模型,所述第一文档识别指令用于指示大模型输出文档图像的文档识别结果,如此能够通过大模型端到端地输出多页文档的识别结果。由于大模型具有更强的建模能力,同时将多页文档图像的视觉特征送入大模型,可以保留不同页文档图像之间的上下文信息,进而能够理解文本的上下文语义,更精确地分析文档的层次结构和内容关系,从而提高文本识别和版面理解的准确性,提升多页文档的识别结果准确度。

    表达式识别方法、装置、电子设备和存储介质

    公开(公告)号:CN119206733A

    公开(公告)日:2024-12-27

    申请号:CN202411470781.0

    申请日:2024-10-21

    Abstract: 本发明提供一种表达式识别方法、装置、电子设备和存储介质,其中方法包括:获取表达式图像;基于表达式图像的图像特征,对表达式图像进行符号识别,得到表达式图像的符号识别结果;基于图像特征和符号识别结果,对表达式图像进行符号校正和符号连通性预测,得到表达式图像的符号校正结果和符号连通关系;基于符号校正结果和符号连通关系,确定表达式图像对应的表达式。本发明提供的方法、装置、电子设备和存储介质,可以充分应用表达式图像的整体视觉特性,从而保证表达式识别的准确性和可靠性;并且,可以一次性输出表达式图像中所有符号的符号校正结果和符号连通关系,这种非自回归的形式能够大大提高表达式的识别效率。

    文档识别方法、装置、电子设备和存储介质

    公开(公告)号:CN118334686A

    公开(公告)日:2024-07-12

    申请号:CN202410515507.4

    申请日:2024-04-26

    Abstract: 本发明提供一种文档识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:获取用户输入的识别需求信息,所述识别需求信息包括至少一个第一待识别要素;针对各所述第一待识别要素,在确定识别模式为精细模式的情况下,基于所述第一待识别要素对待识别文档图片进行要素分割,得到所述第一待识别要素对应的要素分割结果;基于所述要素分割结果生成第一提示信息;从所述待识别文档图片中确定与所述第一提示信息对应的第一待识别要素信息;基于所述第一提示信息对所述第一待识别要素信息进行识别,得到第一识别结果。本发明实现了文档图片的个性化识别,且降低了识别结果的序列长度。

    问题回答方法及相关装置、设备和存储介质

    公开(公告)号:CN117909459A

    公开(公告)日:2024-04-19

    申请号:CN202311693737.1

    申请日:2023-12-06

    Abstract: 本申请公开了一种问题回答方法及相关装置、设备和存储介质,其中,问题回答方法包括:将待回答问题的问题特征输入至在问题回答任务上经参数微调的大语言模型;其中,参数微调时冻结大语言模型的网络参数;获取大语言模型中目标网络层的输出特征,并获取大语言模型在参数微调时为目标网络层确定的特征迁移参数;基于目标网络层的输出特征和特征迁移参数,得到目标网络层的输出特征迁移至问题回答任务之后的迁移特征;其中,迁移特征用于供大语言模型中目标网络层之后的网络层继续处理,直至大语言模型中输出层;获取由输出层所输出的问题回答。上述方案,能够提升大语言模型的问题回答精度。

Patent Agency Ranking