-
公开(公告)号:CN109213851A
公开(公告)日:2019-01-15
申请号:CN201810724523.9
申请日:2018-07-04
Applicant: 中国科学院自动化研究所 , 出门问问信息科技有限公司
IPC: G06F16/332 , G06F17/28 , G06F17/27
Abstract: 本发明涉及语言处理领域,并提出了一种对话系统中口语理解的跨语言迁移方法,旨在解决在对话系统中口语理解的跨语言迁移中,因语义标签难以迁移和语言文化差异造成迁移结果质量不佳的技术问题。为此目的,本发明中的口语的跨语言迁移方法包括:获取待迁移的有标注口语理解数据;利用预先构建的口语理解迁移模型对所述带类别标记的待迁移数据进行迁移,得到带类别标记的第一迁移结果;对第一迁移结果进行文化迁移,得到目标语言的口语理解数据。基于上述步骤,本发明可以快速、准确的对口语理解数据进行跨语言迁移,改善了因为双语带类别标记数据不足而导致的有监督训练方法效果不佳的问题,降低了在模型训练中的数据收集和标注成本。
-
公开(公告)号:CN108763211A
公开(公告)日:2018-11-06
申请号:CN201810499465.4
申请日:2018-05-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
-
公开(公告)号:CN107015966A
公开(公告)日:2017-08-04
申请号:CN201710195609.2
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/271 , G06F17/2785 , G10L15/26
Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。
-
公开(公告)号:CN106021224A
公开(公告)日:2016-10-12
申请号:CN201610317745.X
申请日:2016-05-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/2785 , G06F17/289
Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。
-
公开(公告)号:CN102117270B
公开(公告)日:2016-01-20
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
公开(公告)号:CN102117270A
公开(公告)日:2011-07-06
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
公开(公告)号:CN119358634A
公开(公告)日:2025-01-24
申请号:CN202411143033.1
申请日:2024-08-20
Applicant: 中国科学院自动化研究所
IPC: G06N3/096 , G06N3/084 , G06F16/332 , G06F16/35
Abstract: 本发明提供一种基于排序约束的文本生成模型的迁移训练方法和装置,应用于自然语言处理技术领域。该方法包括:获取训练数据;将所述训练数据输入第一文本生成模型得到所述第一文本生成模型对答复文本的每个预测位置上的第一预测分布输出;将所述训练数据输入第二文本生成模型得到所述第二文本生成模型对答复文本的每个预测位置上的第二预测分布输出;计算所述第一预测分布输出和所述第二预测分布输出之间的排序损失和蒸馏损失;将所述排序损失和所述蒸馏损失融合得到混合损失,并将所有预测位置上的混合损失的均值作为总损失;基于所述总损失进行反向传播,以更新所述第二文本生成模型的模型参数。
-
公开(公告)号:CN115081430B
公开(公告)日:2024-12-06
申请号:CN202210576165.8
申请日:2022-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/232 , G06N20/00
Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。
-
公开(公告)号:CN116821290A
公开(公告)日:2023-09-29
申请号:CN202310638543.5
申请日:2023-05-31
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/35 , G06F18/214 , G06F18/241
Abstract: 本发明提供一种面向多任务对话的大语言模型训练方法和交互方法,其中面向多任务对话的大语言模型训练方法包括:获取通用对话数据和任务对话数据,并确定所述任务对话数据对应的任务类别和任务目标;基于所述通用对话数据,对初始大语言模型进行模型微调,得到第一大语言模型;基于所述任务类别和所述任务目标,对所述任务对话数据进行任务标注,得到目标对话数据;基于所述目标对话数据,对所述第一大语言模型进行模型微调,得到大语言模型,不仅在极大程度上保留了模型的闲聊交互能力,还最大限度的提升了模型的任务识别能力和任务执行能力,使其能够具备快速准确地识别任务类别和任务目标的能力,优化了模型性能。
-
公开(公告)号:CN115062787A
公开(公告)日:2022-09-16
申请号:CN202210581040.4
申请日:2022-05-25
Applicant: 中国科学院自动化研究所
IPC: G06N20/00 , G06F40/232 , G06F40/279
Abstract: 本发明提供一种对比学习模型的训练方法及装置、汉字表示方法及装置,其中对比学习模型的训练方法包括:基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,所述相似汉字簇集合包括字音相似汉字簇集合和字形相似汉字簇集合;根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合;将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件。利用包含有字音相似汉字簇集合和字形相似汉字簇集合的样本汉字三元组集合对对比学习模型进行训练,可以得到汉字之间字音字形的相似关系,丰富了汉字之间字音字形相似关系的表达。
-
-
-
-
-
-
-
-
-