融合文本语义特征的语音翻译方法、系统、设备

    公开(公告)号:CN112800782A

    公开(公告)日:2021-05-14

    申请号:CN202110127939.4

    申请日:2021-01-29

    Abstract: 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据;提取源语言语音数据对应的语音特征序列;并获取各语音特征对应的声学表征;将声学表征的隐向量映射到源语言词表,并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率;对声学表征进行过滤处理,并通过第二编码器得到过滤后的声学特征对应的语义表征;基于语义表征,通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。

    人机混合的应答方法、系统、装置

    公开(公告)号:CN109783704B

    公开(公告)日:2021-02-02

    申请号:CN201910005704.0

    申请日:2019-01-03

    Abstract: 本发明属于人机对话技术领域,具体涉及一种人机混合的应答方法、系统、装置,旨在为了解决现有人机应答方法无法实现在线学习的问题。本发明方法包括:对当前对话上下文Ct进行编码,得到第一表征向量E(Ct);基于对话任务下的候选回复语句,并进行编码后得到第二表征向量基于第一表征向量E(Ct)、第二表征向量通过不确定性估计方法获取候选回复语句能够正确回复用户提问的置信度,置信度大于设定阈值则选择置信度对应的候选回复语句进行应答输出,否则获取通过人机交互设备录入的回复语句或选定的候选回复语句进行应答输出,并基于应答输出后得到的全部对话语句进行上述步骤中的参数优化。本发明保证了输出的应答语句具有足够的置信度,实现了对话模型的在线学习更新。

    神经语义编解码分析方法及系统

    公开(公告)号:CN112232084A

    公开(公告)日:2021-01-15

    申请号:CN202011102971.9

    申请日:2020-10-15

    Abstract: 本发明涉及一种神经语义编解码分析方法及系统,所述神经语义编解码分析方法包括:训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型;通过探针任务量化解析文本表示模型描述各类语言特征的能力,得到探针任务表现;根据探针任务表现,通过消融任务以调整文本表示模型;在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型,通过探针任务量化解析文本表示模型描述各类语言特征的能力;进一步通过消融任务确认文本表示模型的鲁棒性,并以此调整文本表示模型,从而可提高在执行分析任务时的准确率。

    融合规则信息的可控制性对话管理扩展方法

    公开(公告)号:CN108268616B

    公开(公告)日:2020-09-01

    申请号:CN201810009140.3

    申请日:2018-01-04

    Abstract: 本发明属于人机对话技术领域,具体涉及一种融合规则信息的可控制性对话管理扩展方法,旨在解决数据驱动的对话系统通过重新构建交互环境的方式进行扩展时成本高、效率低下的问题,本方法包括:S1,基于交互数据,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;S2,基于新用户意图,构建该新用户意图对应的新对话规则;S3,基于交互数据、原对话管理模块的对话策略、新对话规则,构建新对话管理模块映射空间所需满足的约束;S4,基于S3中得到的新对话管理模块映射空间所需满足的约束,对原对话管理模块进行扩展,生成新对话管理模块。本发明可以对数据驱动的对话系统根据用户反馈进行快速扩展、高效迭代。

    基于改进的PageRank算法的文本-音频自动文摘方法

    公开(公告)号:CN107015966B

    公开(公告)日:2019-07-19

    申请号:CN201710195609.2

    申请日:2017-03-28

    Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。

    篇章因果关系判断方法、系统、装置

    公开(公告)号:CN109918646A

    公开(公告)日:2019-06-21

    申请号:CN201910089352.1

    申请日:2019-01-30

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。

    图文摘要的评价方法
    67.
    发明公开

    公开(公告)号:CN109543512A

    公开(公告)日:2019-03-29

    申请号:CN201811173277.9

    申请日:2018-10-09

    Abstract: 本发明属于自然语言技术领域,具体提供一种图文摘要的评价方法及装置,旨在解决现有技术缺少对图文摘要进行评价从而导致摘要以单模态形式输出的问题。为此目的,本发明提供了一种图文摘要的评价方法,包括计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值;获取待测摘要的图片和参考摘要的图片之间的准确度;基于预先构建的图文相似度计算模型获取待测摘要中图片和文本的相似度;基于预先构建的图文摘要评价模型并根据ROUGE值、准确度以及相似度获取对待测摘要的评价值。基于上述步骤,本发明提供的方法可以从多个方面综合考虑影响摘要评价的因素,可以很好地模拟人工评价的过程,进而提高摘要评价的准确度和处理效率。

    基于多通道自编码器的多模态词汇表示方法与系统

    公开(公告)号:CN108536735A

    公开(公告)日:2018-09-14

    申请号:CN201810178559.1

    申请日:2018-03-05

    Abstract: 本发明涉及自然语言处理领域,具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统,目的在于提高表示结果的准确性。本发明的词汇表示方法,先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量;对于没有视觉模态和音频模态的词汇,利用训练好的映射模型去预测缺失的视觉向量以及听觉向量;再计算上述三种向量与对应模态权重的点积;最后将上述加权后的向量作为多通道自编码器模型的输入,对三种模态的信息进行融合,得到多模态的词汇表示向量。本发明利用不同模态间的相关性,融合不同模态的信息,并引入模态权重,有效提高了词汇表示的准确度。为了对不同模态进行更好的融合,还加入了联想词汇预测模块。

    提高神经机器翻译准确度的方法、翻译方法及系统和设备

    公开(公告)号:CN107943795A

    公开(公告)日:2018-04-20

    申请号:CN201711123864.2

    申请日:2017-11-14

    Abstract: 本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,目的在于减少神经机器翻译系统的漏翻和重翻问题。本发明提出的提高神经机器翻译准确度的方法,通过将统计机器翻译中常用的预处理方法即预调序,引入到神经机器翻译中,实现了意想不到的技术效果——大大缓解了漏翻和重翻问题。另外,在神经机器翻译的注意力层加入位置向量以增强单调翻译,加入覆盖度向量,进一步缓解漏翻和重翻问题。相对于现有的神经机器翻译方法,本发明在提高翻译质量以及减少漏翻重翻方面均有显著改进。

    基于锚点的增长式实时双语词对齐的对齐方法及对齐系统

    公开(公告)号:CN106844332A

    公开(公告)日:2017-06-13

    申请号:CN201611169586.X

    申请日:2016-12-16

    CPC classification number: G06F17/277 G06F17/2775 G06F17/289

    Abstract: 本发明涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐系统,所述对齐方法包括:对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;根据源语言词组和目标语言词组确定探测锚点集合;根据探测锚点集合,进行双语短语切分,得到双语短语切分候选集合;根据双语短语切分候选集合和词对齐模型,确定源语言词组和目标语言词组的对齐双语词;将源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤。本发明对齐方法可有效降低新词和长句的双语词对齐的错误率,提高最终的机器翻译译文质量。

Patent Agency Ranking