-
公开(公告)号:CN112232084B
公开(公告)日:2024-11-12
申请号:CN202011102971.9
申请日:2020-10-15
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/126 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种神经语义编解码分析方法及系统,所述神经语义编解码分析方法包括:训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型;通过探针任务量化解析文本表示模型描述各类语言特征的能力,得到探针任务表现;根据探针任务表现,通过消融任务以调整文本表示模型;在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型,通过探针任务量化解析文本表示模型描述各类语言特征的能力;进一步通过消融任务确认文本表示模型的鲁棒性,并以此调整文本表示模型,从而可提高在执行分析任务时的准确率。
-
公开(公告)号:CN112800785A
公开(公告)日:2021-05-14
申请号:CN202110392717.5
申请日:2021-04-13
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/295 , G06F40/126 , G06K9/00
Abstract: 本发明提供一种多模态机器翻译方法、装置、电子设备和存储介质,所述方法包括:确定待翻译的源语言文本;将源语言文本输入至翻译模型中,得到翻译模型输出的目标语言文本;翻译模型是基于样本源语言文本和样本目标语言文本,以及与样本源语言文本匹配的样本图像,联合重建模型训练得到的;翻译模型与重建模型共用特征编码层,模型训练过程中特征编码层用于编码第一序列和第二序列,翻译模型基于第一序列的编码进行翻译,重建模型基于第二序列的编码进行重建,第一序列基于样本源语言文本确定,第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定,提高了质量提升的可解释性并且降低了翻译的复杂度。
-
公开(公告)号:CN111401081A
公开(公告)日:2020-07-10
申请号:CN201811534845.3
申请日:2018-12-14
Applicant: 波音公司 , 中国科学院自动化研究所
Abstract: 本发明涉及神经网络机器翻译方法、模型及模型形成方法。形成神经网络机器翻译模型的方法包括:形成编码器,其包括第一多头注意力模型;形成解码器,其包括第二多头注意力模型和未来信息模型,未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合;通过编码器和解码器形成第一机器翻译模型;以及对第一机器翻译模型进行对源语言序列从左至右和从右至左的解码训练,以形成神经网络机器翻译模型,其中,第一多头注意力模型和未来信息模型为第二多头注意力模型提供输入。本发明解决了在机器翻译的过程中,在预测当前单词时,未来信息不能被充分利用的问题。
-
公开(公告)号:CN108647214B
公开(公告)日:2020-06-30
申请号:CN201810270468.0
申请日:2018-03-29
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/58 , G06F40/289 , G06N3/04
Abstract: 本发明涉及语言处理领域,提出了一种基于深层神经网络翻译模型的解码方法,旨在解决机器翻译模型中模型训练复杂度高、训练难度大解码速度慢等问题。该方法的具体实施方式包括:对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。本发明提升了模型翻译质量,提高了模型解码速度。
-
公开(公告)号:CN107423284B
公开(公告)日:2020-03-06
申请号:CN201710449875.3
申请日:2017-06-14
Applicant: 中国科学院自动化研究所
IPC: G06F40/211 , G06F40/289 , G06F16/35
Abstract: 本发明涉及自然语言处理技术领域,具体提出一种融合中文单词内部结构信息的句子表示的构建方法及系统,旨在解决单词内部结构信息利用率低的问题;所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。本发明可以提高单词内部结构信息的利用率。
-
公开(公告)号:CN107480196B
公开(公告)日:2020-02-07
申请号:CN201710577334.9
申请日:2017-07-14
Applicant: 中国科学院自动化研究所
IPC: G06F16/36
Abstract: 本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。
-
公开(公告)号:CN109597886A
公开(公告)日:2019-04-09
申请号:CN201811238086.6
申请日:2018-10-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/34
Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。
-
公开(公告)号:CN107480196A
公开(公告)日:2017-12-15
申请号:CN201710577334.9
申请日:2017-07-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。
-
公开(公告)号:CN107066451A
公开(公告)日:2017-08-18
申请号:CN201611170954.2
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/277 , G06F17/2775 , G06F17/2818 , G06F2216/03
Abstract: 本发明涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。
-
公开(公告)号:CN106874362A
公开(公告)日:2017-06-20
申请号:CN201611253245.0
申请日:2016-12-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。
-
-
-
-
-
-
-
-
-