一种基于动态融合机制的多模态词汇表示方法

    公开(公告)号:CN107480196A

    公开(公告)日:2017-12-15

    申请号:CN201710577334.9

    申请日:2017-07-14

    Abstract: 本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

    人机交互翻译模型的更新方法及更新系统

    公开(公告)号:CN107066451A

    公开(公告)日:2017-08-18

    申请号:CN201611170954.2

    申请日:2016-12-16

    CPC classification number: G06F17/277 G06F17/2775 G06F17/2818 G06F2216/03

    Abstract: 本发明涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。

    多语言自动文摘方法
    13.
    发明公开

    公开(公告)号:CN106874362A

    公开(公告)日:2017-06-20

    申请号:CN201611253245.0

    申请日:2016-12-30

    Abstract: 本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。

    同时识别双语术语与词对齐的实现方法及实现系统

    公开(公告)号:CN106649289A

    公开(公告)日:2017-05-10

    申请号:CN201611170300.X

    申请日:2016-12-16

    CPC classification number: G06F17/2827 G06F17/2818 G06F2216/03

    Abstract: 本发明涉及一种同时识别双语术语与词对齐的实现方法及实现系统。所述实现方法包括:对一对源语言句子和目标语言句子进行分词,获得源语言词组和目标语言词组;对源语言词组和目标语言词组进行词对齐,获得对齐初始词;识别源语言句子和目标语言句子中的术语,获得初始单语术语;结合对齐初始词、初始单语术语,进行术语对齐,得到对齐初始术语;将对齐初始术语作为锚点,获得初级双语术语候选列表;对初级双语术语候选列表进行双语术语识别,获得次级双语术语候选列表;对次级双语术语候选列表进行二次双语术语识别和词对齐,获得终极双语术语和终极对齐词。本发明实现方法可实现自动术语识别和词对齐性能,并提高最终的机器翻译译文质量。

    一种基于谓词论元结构的统计机器翻译方法

    公开(公告)号:CN103020045B

    公开(公告)日:2015-05-13

    申请号:CN201210534093.7

    申请日:2012-12-11

    Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

    中文拼写检错纠错方法、装置、电子设备及存储介质

    公开(公告)号:CN115081430A

    公开(公告)日:2022-09-20

    申请号:CN202210576165.8

    申请日:2022-05-24

    Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。

    抽取生成混合型摘要生成方法

    公开(公告)号:CN109597886B

    公开(公告)日:2021-07-06

    申请号:CN201811238086.6

    申请日:2018-10-23

    Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。

    图文摘要生成方法
    18.
    发明授权

    公开(公告)号:CN109508400B

    公开(公告)日:2020-08-28

    申请号:CN201811172666.X

    申请日:2018-10-09

    Abstract: 本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。

    篇章因果关系判断方法、系统、装置

    公开(公告)号:CN109918646B

    公开(公告)日:2020-08-11

    申请号:CN201910089352.1

    申请日:2019-01-30

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。

    融合蕴含知识的自动文摘方法及系统

    公开(公告)号:CN108763211B

    公开(公告)日:2020-07-31

    申请号:CN201810499465.4

    申请日:2018-05-23

    Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。

Patent Agency Ranking