一种基于思维链的跨语言多文档摘要评价方法

    公开(公告)号:CN118467719B

    公开(公告)日:2024-10-01

    申请号:CN202410663888.0

    申请日:2024-05-27

    Abstract: 本发明公开了一种基于思维链的跨语言多文档摘要评价方法,属于自然语言处理技术领域。解决了现有技术中传统的跨语言多文档摘要评价方法忽视生成摘要与原文之间的事实一致性导致的评价质量较低的问题;本发明提取给定的源语言文档集合中每个源语言文档的事实性关键信息,提取生成的跨语言多文档摘要中每个摘要的事实性关键信息;对源语言答案和目标语言答案进行平均度量,得到信息覆盖度得分;计算跨语言多文档摘要中提取的所有事实性关键信息即所有陈述的一致性得分的平均值,得到事实一致性分数;将信息覆盖度得分与事实一致性得分进行融合,得到综合评价分数。本发明有效提升了跨语言多文档摘要评价方法的精度和效率,可以应用于摘要评估。

    一种基于思维链的跨语言多文档摘要生成方法及系统

    公开(公告)号:CN118468864A

    公开(公告)日:2024-08-09

    申请号:CN202410593263.1

    申请日:2024-05-14

    Abstract: 一种基于思维链的跨语言多文档摘要生成方法及系统,涉及自然语言处理领域。解决了现有技术中在跨语言的环境下,不同语言间的语法结构、用词习惯以及文化差异都使得跨语言的信息提取和整合变得更加困难的问题。本发明所述的方法包括:步骤一、输入源语言文档集合;步骤二、对步骤一中每篇源文档进行单文档摘要生成,所述单文档摘要生成包括关键信息提取步骤和多信息整合与摘要生成步骤;步骤三、合并步骤二中生成的各篇文档的单文档摘要,采用增量化合并策略生成多文档摘要;步骤四、利用跨语言思维链引导大语言模型生成目标语言多文档摘要,确保信息的流畅表达和准确传达。步骤五、输出目标语言多文档摘要。本发明还适用于学术、新闻等多个领域。

    一种基于自学习策略的专利成果转化推荐方法及装置

    公开(公告)号:CN117574874A

    公开(公告)日:2024-02-20

    申请号:CN202311396268.7

    申请日:2023-10-25

    Abstract: 一种基于自学习策略的专利成果转化推荐方法及装置,方法包括:获取专利数据集;从每个企业的专利中各抽取一件专利,组成训练集;采用多种方法计算所述训练集中每件专利的摘要文本与所述数据集中剩余专利的摘要文本的相似度;根据采用预设方法计算得到的所述相似度,将所述数据集中剩余专利按照降序排列,得到前m件专利组成样本组,每个样本的样本特征为采用多种方法计算得到的多个所述相似度;基于所述样本组对支持向量机排序模型进行训练;获取待转化专利文本,将所述待转化专利文本输入所述支持向量机排序模型,得到推荐企业结果;该方法不需要人工标注数据,且采用多种方法计算相似度,推荐结果准确率高。

    一种基于上下文期望的无监督词汇级翻译质量评估方法和系统

    公开(公告)号:CN117556834A

    公开(公告)日:2024-02-13

    申请号:CN202311338861.6

    申请日:2023-10-16

    Abstract: 一种基于上下文期望的无监督词汇级翻译质量评估方法和系统,涉及无监督词汇级翻译质量评估领域。解决现有词汇级别QE需要依赖大规模的标注数据,且机器翻译质量评估不准确的问题。所述方法包括:将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;根据所述生成概率作为评分进行词汇级机器翻译质量评估。本发明应用于机器翻译领域。

    一种基于两阶段注意力的多模态信息机器翻译方法

    公开(公告)号:CN113343011B

    公开(公告)日:2023-03-24

    申请号:CN202110682084.1

    申请日:2021-06-19

    Abstract: 本发明公开了一种基于两阶段注意力的多模态信息机器翻译方法。步骤1:为每个输入的文本生成通用的图像信息;步骤2:基于步骤1的通用图像信息计算图间注意力和图内注意力,即处理不同重要程度的图片和图片中对文本贡献程度的区域;步骤3:改进步骤2中图间注意力机制和图内注意力机制,使之成为带有去噪效果的、带有采样功能的注意力机制,从而采样图片中对理解上下文有帮助的图片区域;步骤4:对步骤3改进的图间注意力机制和图内注意力机制进行多模态融合,实现多任务共同学习。本发明用以解决多模态信息机器翻译场景下,不同模态信息如何融合的问题。

    一种基于混合粒度的句子级机器翻译质量估计模型训练方法

    公开(公告)号:CN110472253B

    公开(公告)日:2022-10-25

    申请号:CN201910754140.0

    申请日:2019-08-15

    Abstract: 本发明公开了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;步骤三:进行混合粒度的句子级翻译质量估计模型的训练,通过训练目标计算误差,再通过梯度反向传播更新模型的参数。本发明提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,该方法相对于传统方法的优势主要在于:经过基于混合粒度的模型训练之后,与单一粒度下的训练相比,引入词语级上的翻译质量信息能取得较好的提升。

    融合段落信息的篇章级文本连贯性分类方法

    公开(公告)号:CN115114436A

    公开(公告)日:2022-09-27

    申请号:CN202210688843.X

    申请日:2022-06-17

    Abstract: 本发明公开融合段落信息的篇章级文本连贯性分类方法,属于自然语言处理技术领域,解决现有方法得到的篇章向量普遍缺少上下文信息并且普遍忽略了篇章的段落结构信息的问题。本发明的方法包括:对篇章级文本进行分句,获取篇章级文本的句子;利用XLNet预训练模型,根据篇章级文本的句子,获取句向量;根据段落的关系,构建篇章级文本的篇章结构矩阵;利用篇章结构矩阵,对Tree‑Transformer构建模型进行初始化;利用初始化后的Tree‑Transformer构建模型,对句向量进行更新;根据更新后的句向量,获取篇章级文本的篇章级语义向量表示;将篇章级语义向量表示输入分类层,获取篇章级语义连贯性分类结果。本发明对信息检索和自然语言处理中的多任务学习、文档向量化等方向有重要作用。

Patent Agency Ranking