文本图像翻译模型训练方法、装置、电子设备和存储介质

    公开(公告)号:CN118552965A

    公开(公告)日:2024-08-27

    申请号:CN202410624083.5

    申请日:2024-05-20

    Abstract: 本发明提供一种文本图像翻译模型训练方法、装置、电子设备和存储介质,其中方法包括:获取预训练模型和训练数据,分别对训练数据中的文本图像和源端语言文本字符串进行特征编码,得到文本图像特征和文本特征;分别对文本图像特征和文本特征进行特征解码,得到文本图像翻译结果和文本翻译结果;基于文本图像翻译结果和训练数据中的目标端语言文本字符串,确定文本图像翻译损失;基于文本图像特征、文本特征、文本图像翻译结果和文本翻译结果,确定多层次知识迁移损失;将文本图像翻译损失和多层次知识迁移损失进行融合,得到训练损失,并基于训练损失对预训练模型进行参数更新,得到文本图像翻译模型。本发明能够提升文本图像翻译模型的性能。

    基于视觉语言预训练的图像文本翻译方法及装置

    公开(公告)号:CN117034965B

    公开(公告)日:2024-03-22

    申请号:CN202310996132.3

    申请日:2023-08-08

    Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。

    零资源跨语言对话模型训练方法、装置、设备和介质

    公开(公告)号:CN116805004A

    公开(公告)日:2023-09-26

    申请号:CN202311058414.5

    申请日:2023-08-22

    Abstract: 本发明涉及自然语言处理技术领域,提供一种零资源跨语言对话模型训练方法、装置、设备和介质,所述方法包括:基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型;将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据;基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练,得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。

    基于特征传导的端到端文档图像翻译方法及装置

    公开(公告)号:CN118447523A

    公开(公告)日:2024-08-06

    申请号:CN202410446560.3

    申请日:2024-04-15

    Abstract: 本发明提供一种基于特征传导的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像;提取待翻译文档图像的字符识别结果的几何联合特征,几何联合特征包括几何版面特征、文本特征;基于几何联合特征,得到待翻译文档图像的逻辑版面特征;将逻辑版面特征,和几何联合特征中的文本特征进行特征融合,得到待翻译文档图像的翻译导向特征;基于翻译导向特征,得到文档图像翻译结果。本发明提供的方法,将几何版面以及逻辑版面信息显式地进行建模,并将它们与文本特征进行融合,提升了对复杂版面的文档图像的翻译能力。同时,提供了基于特征传导的统一联合框架,增强了版面模块与翻译模块的协同优化。

    表格重建方法、装置、电子设备及存储介质

    公开(公告)号:CN117973337A

    公开(公告)日:2024-05-03

    申请号:CN202410102694.3

    申请日:2024-01-24

    Abstract: 本发明提供一种表格重建方法、装置、电子设备及存储介质,应用于图像处理技术领域。该方法包括:获取表格图像;提取所述表格图像的图像特征,并根据所述图像特征确定所述表格图像的单元格类别、单元格坐标以及单元格像素掩码;根据所述单元格坐标和所述单元格像素掩码进行网格线重建得到第一表格,根据所述单元格类别对所述第一表格进行单元格合并得到第二表格;其中,所述单元格类别包括空白单元格、基础单元格以及合并单元格。

    融合版面信息的端到端文档图像翻译方法及装置

    公开(公告)号:CN117253239A

    公开(公告)日:2023-12-19

    申请号:CN202311189129.7

    申请日:2023-09-14

    Abstract: 本发明提供一种融合版面信息的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像的字符识别结果,所述字符识别结果包括所述待翻译文档图像中的多个单词以及每个单词的二维坐标信息,所述二维坐标信息基于所述待翻译文档图像的像素值确定;基于所述每个单词对应的文本、所述每个单词的二维坐标信息以及所述每个单词的一维位置信息,得到第一特征向量,所述一维位置信息用于指示所述单词在单词序列中的位置,所述单词序列用于指示从所述待翻译文档图像中识别出来的所有单词组成的一维序列;对所述第一特征向量解码,得到所述待翻译文档图像对应的译文文本。本发明提供的融合版面信息的端到端文档图像翻译方法,有效提升文档翻译效果。

    文本翻译方法、装置、电子设备及存储介质

    公开(公告)号:CN116882423B

    公开(公告)日:2023-11-17

    申请号:CN202311143071.2

    申请日:2023-09-06

    Abstract: 本发明提供一种文本翻译方法、装置、电子设备及存储介质,应用于机器翻译技术领域,该方法包括:获取待翻译文本的第一文本序列,所述第一文本序列包括至少两个相邻语句和每两个相邻语句之间的句间关系分隔符;确定所述第一文本序列中每个词段的向量,得到第一向量序列;确定所述至少两个相邻语句的句间关系向量,并将所述第一向量序列中句间关系分隔符的向量更新为所述句间关系向量,得到第二向量序列;基于所述第二向量序列确定所述待翻译文本的译文文本;其中,所述句间关系向量用于表示所述至少两个相邻语句的关联关系。

    零资源跨语言对话模型训练方法、装置、设备和介质

    公开(公告)号:CN116805004B

    公开(公告)日:2023-11-14

    申请号:CN202311058414.5

    申请日:2023-08-22

    Abstract: 本发明涉及自然语言处理技术领域,提供一种零资源跨语言对话模型训练方法、装置、设备和介质,所述方法包括:基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型;将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据;基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练,得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。

Patent Agency Ranking