-
公开(公告)号:CN100405362C
公开(公告)日:2008-07-23
申请号:CN200510109335.8
申请日:2005-10-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,是一种新的汉语口语解析装置。本发明设计一种基于统计和规则相结合方法的口语解析装置,利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,获得每个词语对应的一种或多种语义及其概率,最后利用统计解析模型对语义分类树的解析结果进行选择和组合,从而获得整个句子的领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义解析。
-
公开(公告)号:CN1271550C
公开(公告)日:2006-08-23
申请号:CN03147553.1
申请日:2003-07-22
Applicant: 中国科学院自动化研究所
Abstract: 口语会话中句子边界识别方法,包括:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;所述切分过程包括步骤:用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。
-
公开(公告)号:CN119443120A
公开(公告)日:2025-02-14
申请号:CN202411499066.X
申请日:2024-10-25
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06N3/0499 , G06N5/04
Abstract: 公开了一种翻译方法及装置、计算机可读存储介质及计算机程序产品,所述方法包括:将源文档图像输入图像编码器,得到图像编码特征,其中,源文档图像包括源语言文本部分和插图部分;将源文档图像输入语义对齐编码器,得到单模态语义编码特征;将图像编码特征和单模态语义编码特征输入解码器,得到源文档图像的翻译结果,其中,翻译结果包括目标语言文本部分和插图部分;其中,翻译模型利用多模态大模型的输出进行训练。
-
公开(公告)号:CN119358634A
公开(公告)日:2025-01-24
申请号:CN202411143033.1
申请日:2024-08-20
Applicant: 中国科学院自动化研究所
IPC: G06N3/096 , G06N3/084 , G06F16/332 , G06F16/35
Abstract: 本发明提供一种基于排序约束的文本生成模型的迁移训练方法和装置,应用于自然语言处理技术领域。该方法包括:获取训练数据;将所述训练数据输入第一文本生成模型得到所述第一文本生成模型对答复文本的每个预测位置上的第一预测分布输出;将所述训练数据输入第二文本生成模型得到所述第二文本生成模型对答复文本的每个预测位置上的第二预测分布输出;计算所述第一预测分布输出和所述第二预测分布输出之间的排序损失和蒸馏损失;将所述排序损失和所述蒸馏损失融合得到混合损失,并将所有预测位置上的混合损失的均值作为总损失;基于所述总损失进行反向传播,以更新所述第二文本生成模型的模型参数。
-
公开(公告)号:CN115081430B
公开(公告)日:2024-12-06
申请号:CN202210576165.8
申请日:2022-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/232 , G06N20/00
Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。
-
公开(公告)号:CN118447523A
公开(公告)日:2024-08-06
申请号:CN202410446560.3
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
IPC: G06V30/414 , G06V30/416 , G06V30/18 , G06V30/19 , G06F40/58
Abstract: 本发明提供一种基于特征传导的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像;提取待翻译文档图像的字符识别结果的几何联合特征,几何联合特征包括几何版面特征、文本特征;基于几何联合特征,得到待翻译文档图像的逻辑版面特征;将逻辑版面特征,和几何联合特征中的文本特征进行特征融合,得到待翻译文档图像的翻译导向特征;基于翻译导向特征,得到文档图像翻译结果。本发明提供的方法,将几何版面以及逻辑版面信息显式地进行建模,并将它们与文本特征进行融合,提升了对复杂版面的文档图像的翻译能力。同时,提供了基于特征传导的统一联合框架,增强了版面模块与翻译模块的协同优化。
-
公开(公告)号:CN118397641A
公开(公告)日:2024-07-26
申请号:CN202410416736.0
申请日:2024-04-08
Applicant: 中国科学院自动化研究所
IPC: G06V30/28 , G06V30/19 , G06N3/0455 , G06N3/08 , G06F40/40
Abstract: 本发明提供一种端到端文档图像翻译方法及装置,该方法包括:对文档图像进行光学字符识别编码,得到图像编码特征,对文档图像进行版面感知编码,得到版面编码特征;根据门控机制对图像编码特征和版面编码特征进行特征加权融合,得到融合特征表示;对融合特征表示进行解码,得到翻译文本。本发明所述方法通过图像编码特征和版面编码特征的融合特征实现文档图像的翻译,提高了文档图片的翻译准确率。
-
公开(公告)号:CN117973337A
公开(公告)日:2024-05-03
申请号:CN202410102694.3
申请日:2024-01-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/18 , G06V30/413 , G06V30/414
Abstract: 本发明提供一种表格重建方法、装置、电子设备及存储介质,应用于图像处理技术领域。该方法包括:获取表格图像;提取所述表格图像的图像特征,并根据所述图像特征确定所述表格图像的单元格类别、单元格坐标以及单元格像素掩码;根据所述单元格坐标和所述单元格像素掩码进行网格线重建得到第一表格,根据所述单元格类别对所述第一表格进行单元格合并得到第二表格;其中,所述单元格类别包括空白单元格、基础单元格以及合并单元格。
-
公开(公告)号:CN117253239A
公开(公告)日:2023-12-19
申请号:CN202311189129.7
申请日:2023-09-14
Applicant: 中国科学院自动化研究所
IPC: G06V30/244 , G06V30/246 , G06V30/41 , G06V30/413 , G06F40/40 , G06F40/211
Abstract: 本发明提供一种融合版面信息的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像的字符识别结果,所述字符识别结果包括所述待翻译文档图像中的多个单词以及每个单词的二维坐标信息,所述二维坐标信息基于所述待翻译文档图像的像素值确定;基于所述每个单词对应的文本、所述每个单词的二维坐标信息以及所述每个单词的一维位置信息,得到第一特征向量,所述一维位置信息用于指示所述单词在单词序列中的位置,所述单词序列用于指示从所述待翻译文档图像中识别出来的所有单词组成的一维序列;对所述第一特征向量解码,得到所述待翻译文档图像对应的译文文本。本发明提供的融合版面信息的端到端文档图像翻译方法,有效提升文档翻译效果。
-
公开(公告)号:CN116882423B
公开(公告)日:2023-11-17
申请号:CN202311143071.2
申请日:2023-09-06
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/44 , G06F40/205
Abstract: 本发明提供一种文本翻译方法、装置、电子设备及存储介质,应用于机器翻译技术领域,该方法包括:获取待翻译文本的第一文本序列,所述第一文本序列包括至少两个相邻语句和每两个相邻语句之间的句间关系分隔符;确定所述第一文本序列中每个词段的向量,得到第一向量序列;确定所述至少两个相邻语句的句间关系向量,并将所述第一向量序列中句间关系分隔符的向量更新为所述句间关系向量,得到第二向量序列;基于所述第二向量序列确定所述待翻译文本的译文文本;其中,所述句间关系向量用于表示所述至少两个相邻语句的关联关系。
-
-
-
-
-
-
-
-
-