一种双语篇章标注方法
    11.
    发明授权

    公开(公告)号:CN106021224B

    公开(公告)日:2019-03-15

    申请号:CN201610317745.X

    申请日:2016-05-13

    Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。

    文本蕴含识别方法及装置
    12.
    发明公开

    公开(公告)号:CN109033073A

    公开(公告)日:2018-12-18

    申请号:CN201810688172.0

    申请日:2018-06-28

    Abstract: 本发明属于自然语言处理技术领域,具体提供了一种文本蕴含识别方法及装置。旨在解决现有技术需要对句子进行复杂的特征描述和特征提取的问题。本发明的文本蕴含识别方法包括对待识别文本蕴含句对的源句子和目标句子进行依存句法分析,并根据分析结果获取源句子依存三元组集合和目标句子依存三元组集合;对源句子依存三元组集合和目标句子依存三元组集合进行语义关系比较,得到比较结果;根据比较结果预测源句子和目标句子之间的语义蕴含关系。本发明的方法可以从整体角度提升句子之间的比较精度,并且提升句子的依存三元组之间的对齐精度,进而提高语义蕴含关系预测的准确率。本发明的装置同样具有上述有益效果。

    融合规则信息的可控制性对话管理扩展方法

    公开(公告)号:CN108268616A

    公开(公告)日:2018-07-10

    申请号:CN201810009140.3

    申请日:2018-01-04

    Abstract: 本发明属于人机对话技术领域,具体涉及一种融合规则信息的可控制性对话管理扩展方法,旨在解决数据驱动的对话系统通过重新构建交互环境的方式进行扩展时成本高、效率低下的问题,本方法包括:S1,基于交互数据,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;S2,基于新用户意图,构建该新用户意图对应的新对话规则;S3,基于交互数据、原对话管理模块的对话策略、新对话规则,构建新对话管理模块映射空间所需满足的约束;S4,基于S3中得到的新对话管理模块映射空间所需满足的约束,对原对话管理模块进行扩展,生成新对话管理模块。本发明可以对数据驱动的对话系统根据用户反馈进行快速扩展、高效迭代。

    基于文本‑图像匹配的多模态自动文摘方法

    公开(公告)号:CN106997387A

    公开(公告)日:2017-08-01

    申请号:CN201710195587.X

    申请日:2017-03-28

    CPC classification number: G06F16/345 G06K9/00744 G06K9/6201

    Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。

    基于神经机器翻译系统的单词预测方法及系统

    公开(公告)号:CN106844352A

    公开(公告)日:2017-06-13

    申请号:CN201611209226.8

    申请日:2016-12-23

    Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。

    一种基于依存连贯性约束的双语词语自动对齐方法

    公开(公告)号:CN102708098B

    公开(公告)日:2015-02-04

    申请号:CN201210175015.2

    申请日:2012-05-30

    Inventor: 宗成庆 王志国

    Abstract: 本发明公开了一种基于依存连贯性约束的双语词对齐方法。该方法首先对训练句子对进行依存句法分析。在训练阶段,利用训练句子对和依存句法树,训练基于源语言端和目标语言端依存连贯性约束的词对齐模型。在测试阶段,利用基于源语言端和目标语言端依存连贯性约束的词对齐模型为测试句子对产生满足源语言端和目标语言端依存连贯性约束的词对齐结果,并将这两个词对齐结果进行合并,产生一个兼顾准确率和召回率的满足双语依存连贯性约束的词对齐结果。本发明相对于现有技术得到的词对齐错误率较低。

    一种基于依存连贯性约束的双语词语自动对齐方法

    公开(公告)号:CN102708098A

    公开(公告)日:2012-10-03

    申请号:CN201210175015.2

    申请日:2012-05-30

    Inventor: 宗成庆 王志国

    Abstract: 本发明公开了一种基于依存连贯性约束的双语词对齐方法。该方法首先对训练句子对进行依存句法分析。在训练阶段,利用训练句子对和依存句法树,训练基于源语言端和目标语言端依存连贯性约束的词对齐模型。在测试阶段,利用基于源语言端和目标语言端依存连贯性约束的词对齐模型为测试句子对产生满足源语言端和目标语言端依存连贯性约束的词对齐结果,并将这两个词对齐结果进行合并,产生一个兼顾准确率和召回率的满足双语依存连贯性约束的词对齐结果。本发明相对于现有技术得到的词对齐错误率较低。

    一种汉英词语自动对齐方法

    公开(公告)号:CN101482861A

    公开(公告)日:2009-07-15

    申请号:CN200810055783.8

    申请日:2008-01-09

    Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。

    口语会话中句子边界识别方法

    公开(公告)号:CN1570923A

    公开(公告)日:2005-01-26

    申请号:CN03147553.1

    申请日:2003-07-22

    Inventor: 宗成庆 刘丁

    Abstract: 一种基于双向N-gram模型和Maximum Entrpy模型的句子边界切分方法包括训练和切分两个过程,所述的训练过程包括步骤:获得口语语料库;对口语语料库进行替代等预处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数;获得特征函数参数数据库。基于双向n-gram模型和Maximum Entropy模型的句子边界切分方法属于纯统计方法,其实施只需要一个后台口语语料库,语料库不需要进行任何深层地切分或者标注等处理。该方法不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。

    多语言翻译方法、装置、电子设备及存储介质

    公开(公告)号:CN114139556B

    公开(公告)日:2025-03-21

    申请号:CN202111271484.X

    申请日:2021-10-29

    Abstract: 本发明提供一种多语言翻译方法、装置、电子设备及存储介质,方法包括:获取训练数据和源语言的文本;其中,训练数据包括源语言到多种目标语言的双语平行句对和多语言平行句对;对源语言的文本进行编码,得到源语言的文本对应的特征向量;其中,特征向量与目标语言无关;基于特征向量和多种目标语言已生成的译文,确定多种目标语言的当前词的最终表示;基于语言独立的柱搜索算法及多种目标语言的当前词的最终表示,对多种目标语言的已生成最优候选译文进行扩展,得到多种目标语言的目标译文。本发明提供的方法,能够利用多种目标语言之间的互补信息,生成多种目标语言的目标译文,同时提升多种目标语言的翻译质量。

Patent Agency Ranking