神经语义编解码分析方法及系统

    公开(公告)号:CN112232084A

    公开(公告)日:2021-01-15

    申请号:CN202011102971.9

    申请日:2020-10-15

    Abstract: 本发明涉及一种神经语义编解码分析方法及系统,所述神经语义编解码分析方法包括:训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型;通过探针任务量化解析文本表示模型描述各类语言特征的能力,得到探针任务表现;根据探针任务表现,通过消融任务以调整文本表示模型;在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型,通过探针任务量化解析文本表示模型描述各类语言特征的能力;进一步通过消融任务确认文本表示模型的鲁棒性,并以此调整文本表示模型,从而可提高在执行分析任务时的准确率。

    基于QA知识库推理的多轮对话回复选择方法、系统

    公开(公告)号:CN110096567B

    公开(公告)日:2020-12-25

    申请号:CN201910192600.5

    申请日:2019-03-14

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于QA知识库推理的多轮多话回复选择方法、系统,旨在解决人机多轮对话交互系统中回复选择的问题。本发明方法包括:以当前多轮对话提取的关键词、当前输入作为问题从QA知识库中检索出候选问题集合,并获取相应的上下文,构建候选多轮对话集合;计算当前输入与候选问题的语义相似度为第一相似度;计算当前输入的上下文与各候选问题上下文的语义相似度为第二相似度;计算当前多轮对话与各候选多轮对话的摘要信息的相似度为第三相似度;三个相似度加权求和得到各候选问题与当前输入的相似度,将相似度最大的候选问题对应的回复作为输出回复。本发明可以有效提高回复语句的质量,增强用户体验。

    基于原型记忆的小数据词表示学习方法与系统及相关设备

    公开(公告)号:CN110008480B

    公开(公告)日:2020-12-11

    申请号:CN201811479634.4

    申请日:2018-12-05

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于原型记忆的小数据词表示学习方法与系统及相关设备,目的在于解决传统的分布语义模型为了得到高质量的词表示,要求每个目标词具有大量的上下文样本的问题。本发明的基于原型记忆的小数据词表示学习方法包括:根据通用领域语料库,对键值记忆储存模型进行初始化;根据通用领域语料库学习词表示,并在键值记忆储存模型中存储词的原型表示;根据罕见词语料库,利用键值记忆储存模型,学习罕见词的词表示。本发明中原型表示的构建使得模型不再需要逐个记忆所有过往样本,同时具有更好的泛化能力。在利用大规模语料中完成知识积累后,在小规模语料中给定有限上下文的情况下,快速学习目标词的表示。

    融合规则信息的可控制性对话管理扩展方法

    公开(公告)号:CN108268616B

    公开(公告)日:2020-09-01

    申请号:CN201810009140.3

    申请日:2018-01-04

    Abstract: 本发明属于人机对话技术领域,具体涉及一种融合规则信息的可控制性对话管理扩展方法,旨在解决数据驱动的对话系统通过重新构建交互环境的方式进行扩展时成本高、效率低下的问题,本方法包括:S1,基于交互数据,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;S2,基于新用户意图,构建该新用户意图对应的新对话规则;S3,基于交互数据、原对话管理模块的对话策略、新对话规则,构建新对话管理模块映射空间所需满足的约束;S4,基于S3中得到的新对话管理模块映射空间所需满足的约束,对原对话管理模块进行扩展,生成新对话管理模块。本发明可以对数据驱动的对话系统根据用户反馈进行快速扩展、高效迭代。

    基于改进的PageRank算法的文本-音频自动文摘方法

    公开(公告)号:CN107015966B

    公开(公告)日:2019-07-19

    申请号:CN201710195609.2

    申请日:2017-03-28

    Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。

    篇章因果关系判断方法、系统、装置

    公开(公告)号:CN109918646A

    公开(公告)日:2019-06-21

    申请号:CN201910089352.1

    申请日:2019-01-30

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。

    图文摘要的评价方法
    37.
    发明公开

    公开(公告)号:CN109543512A

    公开(公告)日:2019-03-29

    申请号:CN201811173277.9

    申请日:2018-10-09

    Abstract: 本发明属于自然语言技术领域,具体提供一种图文摘要的评价方法及装置,旨在解决现有技术缺少对图文摘要进行评价从而导致摘要以单模态形式输出的问题。为此目的,本发明提供了一种图文摘要的评价方法,包括计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值;获取待测摘要的图片和参考摘要的图片之间的准确度;基于预先构建的图文相似度计算模型获取待测摘要中图片和文本的相似度;基于预先构建的图文摘要评价模型并根据ROUGE值、准确度以及相似度获取对待测摘要的评价值。基于上述步骤,本发明提供的方法可以从多个方面综合考虑影响摘要评价的因素,可以很好地模拟人工评价的过程,进而提高摘要评价的准确度和处理效率。

    基于多通道自编码器的多模态词汇表示方法与系统

    公开(公告)号:CN108536735A

    公开(公告)日:2018-09-14

    申请号:CN201810178559.1

    申请日:2018-03-05

    Abstract: 本发明涉及自然语言处理领域,具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统,目的在于提高表示结果的准确性。本发明的词汇表示方法,先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量;对于没有视觉模态和音频模态的词汇,利用训练好的映射模型去预测缺失的视觉向量以及听觉向量;再计算上述三种向量与对应模态权重的点积;最后将上述加权后的向量作为多通道自编码器模型的输入,对三种模态的信息进行融合,得到多模态的词汇表示向量。本发明利用不同模态间的相关性,融合不同模态的信息,并引入模态权重,有效提高了词汇表示的准确度。为了对不同模态进行更好的融合,还加入了联想词汇预测模块。

    提高神经机器翻译准确度的方法、翻译方法及系统和设备

    公开(公告)号:CN107943795A

    公开(公告)日:2018-04-20

    申请号:CN201711123864.2

    申请日:2017-11-14

    Abstract: 本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,目的在于减少神经机器翻译系统的漏翻和重翻问题。本发明提出的提高神经机器翻译准确度的方法,通过将统计机器翻译中常用的预处理方法即预调序,引入到神经机器翻译中,实现了意想不到的技术效果——大大缓解了漏翻和重翻问题。另外,在神经机器翻译的注意力层加入位置向量以增强单调翻译,加入覆盖度向量,进一步缓解漏翻和重翻问题。相对于现有的神经机器翻译方法,本发明在提高翻译质量以及减少漏翻重翻方面均有显著改进。

    基于锚点的增长式实时双语词对齐的对齐方法及对齐系统

    公开(公告)号:CN106844332A

    公开(公告)日:2017-06-13

    申请号:CN201611169586.X

    申请日:2016-12-16

    CPC classification number: G06F17/277 G06F17/2775 G06F17/289

    Abstract: 本发明涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐系统,所述对齐方法包括:对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;根据源语言词组和目标语言词组确定探测锚点集合;根据探测锚点集合,进行双语短语切分,得到双语短语切分候选集合;根据双语短语切分候选集合和词对齐模型,确定源语言词组和目标语言词组的对齐双语词;将源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤。本发明对齐方法可有效降低新词和长句的双语词对齐的错误率,提高最终的机器翻译译文质量。

Patent Agency Ranking