用于训练生成式大语言模型和用于处理图像任务的方法

    公开(公告)号:CN117114063A

    公开(公告)日:2023-11-24

    申请号:CN202311110301.5

    申请日:2023-08-30

    Abstract: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。

    图像处理方法、图像处理模型的训练方法和装置

    公开(公告)号:CN116597454A

    公开(公告)日:2023-08-15

    申请号:CN202310597526.1

    申请日:2023-05-24

    Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。

    基于图像的文本获取方法、装置、电子设备及存储介质

    公开(公告)号:CN114937277B

    公开(公告)日:2023-04-11

    申请号:CN202210543075.9

    申请日:2022-05-18

    Abstract: 本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。

    文本识别模型框架的训练方法、装置及系统

    公开(公告)号:CN113591864B

    公开(公告)日:2023-04-07

    申请号:CN202110858410.X

    申请日:2021-07-28

    Abstract: 本公开提供了一种文本识别模型框架的训练方法、装置及系统,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。包括:基于预设的文本检测模型对样本图像进行特征处理,得到与样本图像中文本信息相关的至少两种特征信息,基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理,得到样本图像的融合特征,将融合特征输入至特征融合模型,基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整,得到文本识别模型框架,文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性,从而实现了训练过程的完整性和全面性,提高了文本识别模型框架的准确性和可靠性。

    信息提取方法、装置、电子设备和介质

    公开(公告)号:CN114863439B

    公开(公告)日:2023-02-17

    申请号:CN202210546057.6

    申请日:2022-05-19

    Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉等技术领域,可应用于OCR等场景。实现方案为:对第一文档图像进行编码,以得到多个尺度的目标特征图,并对查询信息进行编码,以得到目标文本特征;对目标特征图和目标文本特征进行融合,以得到目标融合特征;根据目标融合特征,提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此,可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息,以满足用户的实际提取需求,改善用户的使用体验;并且,通过自动提取结构化信息,可以提高待办事件的处理效率,支持企业办公智能化进程。

Patent Agency Ranking