-
公开(公告)号:CN118467719B
公开(公告)日:2024-10-01
申请号:CN202410663888.0
申请日:2024-05-27
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F40/58 , G06F40/194
Abstract: 本发明公开了一种基于思维链的跨语言多文档摘要评价方法,属于自然语言处理技术领域。解决了现有技术中传统的跨语言多文档摘要评价方法忽视生成摘要与原文之间的事实一致性导致的评价质量较低的问题;本发明提取给定的源语言文档集合中每个源语言文档的事实性关键信息,提取生成的跨语言多文档摘要中每个摘要的事实性关键信息;对源语言答案和目标语言答案进行平均度量,得到信息覆盖度得分;计算跨语言多文档摘要中提取的所有事实性关键信息即所有陈述的一致性得分的平均值,得到事实一致性分数;将信息覆盖度得分与事实一致性得分进行融合,得到综合评价分数。本发明有效提升了跨语言多文档摘要评价方法的精度和效率,可以应用于摘要评估。
-
公开(公告)号:CN118468864A
公开(公告)日:2024-08-09
申请号:CN202410593263.1
申请日:2024-05-14
Applicant: 哈尔滨工业大学
IPC: G06F40/279 , G06F40/216
Abstract: 一种基于思维链的跨语言多文档摘要生成方法及系统,涉及自然语言处理领域。解决了现有技术中在跨语言的环境下,不同语言间的语法结构、用词习惯以及文化差异都使得跨语言的信息提取和整合变得更加困难的问题。本发明所述的方法包括:步骤一、输入源语言文档集合;步骤二、对步骤一中每篇源文档进行单文档摘要生成,所述单文档摘要生成包括关键信息提取步骤和多信息整合与摘要生成步骤;步骤三、合并步骤二中生成的各篇文档的单文档摘要,采用增量化合并策略生成多文档摘要;步骤四、利用跨语言思维链引导大语言模型生成目标语言多文档摘要,确保信息的流畅表达和准确传达。步骤五、输出目标语言多文档摘要。本发明还适用于学术、新闻等多个领域。
-
公开(公告)号:CN117574874A
公开(公告)日:2024-02-20
申请号:CN202311396268.7
申请日:2023-10-25
Applicant: 哈尔滨工业大学
IPC: G06F40/20 , G06F18/22 , G06F16/9535 , G06N20/10 , G06Q50/18
Abstract: 一种基于自学习策略的专利成果转化推荐方法及装置,方法包括:获取专利数据集;从每个企业的专利中各抽取一件专利,组成训练集;采用多种方法计算所述训练集中每件专利的摘要文本与所述数据集中剩余专利的摘要文本的相似度;根据采用预设方法计算得到的所述相似度,将所述数据集中剩余专利按照降序排列,得到前m件专利组成样本组,每个样本的样本特征为采用多种方法计算得到的多个所述相似度;基于所述样本组对支持向量机排序模型进行训练;获取待转化专利文本,将所述待转化专利文本输入所述支持向量机排序模型,得到推荐企业结果;该方法不需要人工标注数据,且采用多种方法计算相似度,推荐结果准确率高。
-
公开(公告)号:CN117556834A
公开(公告)日:2024-02-13
申请号:CN202311338861.6
申请日:2023-10-16
Applicant: 哈尔滨工业大学
Abstract: 一种基于上下文期望的无监督词汇级翻译质量评估方法和系统,涉及无监督词汇级翻译质量评估领域。解决现有词汇级别QE需要依赖大规模的标注数据,且机器翻译质量评估不准确的问题。所述方法包括:将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;根据所述生成概率作为评分进行词汇级机器翻译质量评估。本发明应用于机器翻译领域。
-
公开(公告)号:CN117493481A
公开(公告)日:2024-02-02
申请号:CN202311310422.4
申请日:2023-10-11
Applicant: 哈尔滨工业大学 , 无锡睿文科技有限公司
IPC: G06F16/33 , G06F16/332 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 一种基于自注意力机制的后交互专利检索方法及装置,涉及专利信息检索技术领域,方法包括:获取查询文本和待检索专利文本并进行预处理;将经过预处理的所述查询文本和待检索专利文本输入BERT编码器,得到查询向量和待检索专利向量,其中,所述BERT编码器为BERT模型基于专利语料预训练得到;将所述查询向量和待检索专利向量进行拼接,并输入多头自注意力模型,得到各个所述待检索专利文本对应的自注意力结果;将所述自注意力结果拼接后输入多层感知机,得到各个所述待检索专利文本的相似度评分并排序;该方法及装置将多头自注意力机制用于查询和文档的后交互,在专利检索平均准确率以及归一化折损累计增益指标上均有较大提升。
-
公开(公告)号:CN111597327B
公开(公告)日:2023-04-07
申请号:CN202010323594.5
申请日:2020-04-22
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F16/9532 , G06N3/0464 , G06N3/08 , G06F16/36
Abstract: 本发明公开了一种面向舆情分析的无监督式多文档文摘生成方法。步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘。本发明解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题,以实现对舆情新闻的监控。
-
公开(公告)号:CN113343011B
公开(公告)日:2023-03-24
申请号:CN202110682084.1
申请日:2021-06-19
Applicant: 哈尔滨工业大学
IPC: G06F16/58 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/047 , G06N3/08 , G06F18/241 , G06F18/2415 , G06F18/25
Abstract: 本发明公开了一种基于两阶段注意力的多模态信息机器翻译方法。步骤1:为每个输入的文本生成通用的图像信息;步骤2:基于步骤1的通用图像信息计算图间注意力和图内注意力,即处理不同重要程度的图片和图片中对文本贡献程度的区域;步骤3:改进步骤2中图间注意力机制和图内注意力机制,使之成为带有去噪效果的、带有采样功能的注意力机制,从而采样图片中对理解上下文有帮助的图片区域;步骤4:对步骤3改进的图间注意力机制和图内注意力机制进行多模态融合,实现多任务共同学习。本发明用以解决多模态信息机器翻译场景下,不同模态信息如何融合的问题。
-
公开(公告)号:CN110472253B
公开(公告)日:2022-10-25
申请号:CN201910754140.0
申请日:2019-08-15
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;步骤三:进行混合粒度的句子级翻译质量估计模型的训练,通过训练目标计算误差,再通过梯度反向传播更新模型的参数。本发明提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,该方法相对于传统方法的优势主要在于:经过基于混合粒度的模型训练之后,与单一粒度下的训练相比,引入词语级上的翻译质量信息能取得较好的提升。
-
公开(公告)号:CN113312532B
公开(公告)日:2022-10-21
申请号:CN202110608376.0
申请日:2021-06-01
Applicant: 哈尔滨工业大学
IPC: G06F16/951 , G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于深度学习面向公检法领域的舆情等级预测方法。步骤1:从网络上爬取公检法领域相关的舆情信息,提取其中的文本信息存储至数据库中;步骤2:对采集到文本信息利用深度学习模型进行预测,得到舆情等级预测结果;步骤3:将步骤2的舆情等级预测结果存储至系统数据库;步骤4:在数据库中对舆情等级做出相应标识;步骤5:对标识后的数据库中舆情等级提供可访问舆情信息的数据接口;步骤6:通过数据接口在系统中显示舆情等级预测结果。本发明用以解决舆情系统没有针对性的问题,跳出算法的限制。
-
公开(公告)号:CN115114436A
公开(公告)日:2022-09-27
申请号:CN202210688843.X
申请日:2022-06-17
Applicant: 哈尔滨工业大学
Abstract: 本发明公开融合段落信息的篇章级文本连贯性分类方法,属于自然语言处理技术领域,解决现有方法得到的篇章向量普遍缺少上下文信息并且普遍忽略了篇章的段落结构信息的问题。本发明的方法包括:对篇章级文本进行分句,获取篇章级文本的句子;利用XLNet预训练模型,根据篇章级文本的句子,获取句向量;根据段落的关系,构建篇章级文本的篇章结构矩阵;利用篇章结构矩阵,对Tree‑Transformer构建模型进行初始化;利用初始化后的Tree‑Transformer构建模型,对句向量进行更新;根据更新后的句向量,获取篇章级文本的篇章级语义向量表示;将篇章级语义向量表示输入分类层,获取篇章级语义连贯性分类结果。本发明对信息检索和自然语言处理中的多任务学习、文档向量化等方向有重要作用。
-
-
-
-
-
-
-
-
-