基于改进的PageRank算法的文本-音频自动文摘方法

    公开(公告)号:CN107015966B

    公开(公告)日:2019-07-19

    申请号:CN201710195609.2

    申请日:2017-03-28

    Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。

    篇章因果关系判断方法、系统、装置

    公开(公告)号:CN109918646A

    公开(公告)日:2019-06-21

    申请号:CN201910089352.1

    申请日:2019-01-30

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。

    图文摘要的评价方法
    13.
    发明公开

    公开(公告)号:CN109543512A

    公开(公告)日:2019-03-29

    申请号:CN201811173277.9

    申请日:2018-10-09

    Abstract: 本发明属于自然语言技术领域,具体提供一种图文摘要的评价方法及装置,旨在解决现有技术缺少对图文摘要进行评价从而导致摘要以单模态形式输出的问题。为此目的,本发明提供了一种图文摘要的评价方法,包括计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值;获取待测摘要的图片和参考摘要的图片之间的准确度;基于预先构建的图文相似度计算模型获取待测摘要中图片和文本的相似度;基于预先构建的图文摘要评价模型并根据ROUGE值、准确度以及相似度获取对待测摘要的评价值。基于上述步骤,本发明提供的方法可以从多个方面综合考虑影响摘要评价的因素,可以很好地模拟人工评价的过程,进而提高摘要评价的准确度和处理效率。

    基于锚点的增长式实时双语词对齐的对齐方法及对齐系统

    公开(公告)号:CN106844332A

    公开(公告)日:2017-06-13

    申请号:CN201611169586.X

    申请日:2016-12-16

    CPC classification number: G06F17/277 G06F17/2775 G06F17/289

    Abstract: 本发明涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐系统,所述对齐方法包括:对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;根据源语言词组和目标语言词组确定探测锚点集合;根据探测锚点集合,进行双语短语切分,得到双语短语切分候选集合;根据双语短语切分候选集合和词对齐模型,确定源语言词组和目标语言词组的对齐双语词;将源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤。本发明对齐方法可有效降低新词和长句的双语词对齐的错误率,提高最终的机器翻译译文质量。

    基于双语篇章结构信息的译文篇章完整性评估方法

    公开(公告)号:CN104915337A

    公开(公告)日:2015-09-16

    申请号:CN201510340623.8

    申请日:2015-06-18

    Inventor: 周玉 涂眉 宗成庆

    Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。

    一种基于谓词论元结构的统计机器翻译方法

    公开(公告)号:CN103020045A

    公开(公告)日:2013-04-03

    申请号:CN201210534093.7

    申请日:2012-12-11

    Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

    一种汉英短语翻译对自动抽取与过滤方法

    公开(公告)号:CN101482860B

    公开(公告)日:2010-12-01

    申请号:CN200810055782.3

    申请日:2008-01-09

    Inventor: 宗成庆 周玉

    Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。

    一种汉英短语翻译对自动抽取与过滤方法

    公开(公告)号:CN101482860A

    公开(公告)日:2009-07-15

    申请号:CN200810055782.3

    申请日:2008-01-09

    Inventor: 宗成庆 周玉

    Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。

    语音翻译模型训练方法、装置、电子设备及存储介质

    公开(公告)号:CN117113091B

    公开(公告)日:2024-02-13

    申请号:CN202311380008.0

    申请日:2023-10-24

    Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据;分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作,生成多个掩码序列;基于所述多个掩码序列训练语音翻译模型的编码器;在所述编码器的第一损失函数处于收敛状态的情况下,冻结所述编码器的参数,并基于所述第一文本翻译数据训练所述语音翻译模型的解码器;基于所述第一语音翻译数据对所述语音翻译模型进行训练。

    神经机器翻译方法、装置、电子设备及介质

    公开(公告)号:CN117034968B

    公开(公告)日:2024-02-02

    申请号:CN202311304326.9

    申请日:2023-10-10

    Abstract: 本发明提供一种神经机器翻译方法、装置、电子设备及介质,属于机器翻译技术领域。该方法应用于机器翻译模型,机器翻译模型包括编码器和解码器,该方法包括:识别待翻译的源语言句子对应的目标翻译规则模板,所述目标翻译规则模板包括第一源端模板、第一目标端模板和第一源端变量片段;基于第一约束提示序列和待翻译的源语言句子,得到编码器的输入;基于第一约束提示序列和解码器的初始输入序列,得到解码器的输入;所述第一约束提示序列为依次拼接所述第一源端模板、所述第一源端变量片段和所述第一目标端模板后得到的;基于编码器的输入和解码器的输入,得到机器翻译模型输出的翻译结果。本发明提供的神经机器翻译方法,可以提高翻译准确性。

Patent Agency Ranking