-
公开(公告)号:CN111597327B
公开(公告)日:2023-04-07
申请号:CN202010323594.5
申请日:2020-04-22
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F16/9532 , G06N3/0464 , G06N3/08 , G06F16/36
Abstract: 本发明公开了一种面向舆情分析的无监督式多文档文摘生成方法。步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘。本发明解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题,以实现对舆情新闻的监控。
-
公开(公告)号:CN115617989A
公开(公告)日:2023-01-17
申请号:CN202211172672.1
申请日:2022-09-26
Applicant: 无锡睿文科技有限公司 , 哈尔滨工业大学
IPC: G06F16/35 , G06F40/295 , G06F40/30
Abstract: 一种中文专利关键信息语料库的构建方法、系统和计算机设备,属于专利分析技术领域,解决专利语料库的标注质量不高问题。本发明的方法包括:选取某一技术领域,并获取某一技术领域的专利数据集;确定所述专利数据集的标注范围;设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;根据所述试标注规范,获取若干个正式标注规范;根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。本发明适用于专利的信息检索和跨语言翻译。
-
公开(公告)号:CN110472253B
公开(公告)日:2022-10-25
申请号:CN201910754140.0
申请日:2019-08-15
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;步骤三:进行混合粒度的句子级翻译质量估计模型的训练,通过训练目标计算误差,再通过梯度反向传播更新模型的参数。本发明提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,该方法相对于传统方法的优势主要在于:经过基于混合粒度的模型训练之后,与单一粒度下的训练相比,引入词语级上的翻译质量信息能取得较好的提升。
-
公开(公告)号:CN113312532B
公开(公告)日:2022-10-21
申请号:CN202110608376.0
申请日:2021-06-01
Applicant: 哈尔滨工业大学
IPC: G06F16/951 , G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于深度学习面向公检法领域的舆情等级预测方法。步骤1:从网络上爬取公检法领域相关的舆情信息,提取其中的文本信息存储至数据库中;步骤2:对采集到文本信息利用深度学习模型进行预测,得到舆情等级预测结果;步骤3:将步骤2的舆情等级预测结果存储至系统数据库;步骤4:在数据库中对舆情等级做出相应标识;步骤5:对标识后的数据库中舆情等级提供可访问舆情信息的数据接口;步骤6:通过数据接口在系统中显示舆情等级预测结果。本发明用以解决舆情系统没有针对性的问题,跳出算法的限制。
-
公开(公告)号:CN115114436A
公开(公告)日:2022-09-27
申请号:CN202210688843.X
申请日:2022-06-17
Applicant: 哈尔滨工业大学
Abstract: 本发明公开融合段落信息的篇章级文本连贯性分类方法,属于自然语言处理技术领域,解决现有方法得到的篇章向量普遍缺少上下文信息并且普遍忽略了篇章的段落结构信息的问题。本发明的方法包括:对篇章级文本进行分句,获取篇章级文本的句子;利用XLNet预训练模型,根据篇章级文本的句子,获取句向量;根据段落的关系,构建篇章级文本的篇章结构矩阵;利用篇章结构矩阵,对Tree‑Transformer构建模型进行初始化;利用初始化后的Tree‑Transformer构建模型,对句向量进行更新;根据更新后的句向量,获取篇章级文本的篇章级语义向量表示;将篇章级语义向量表示输入分类层,获取篇章级语义连贯性分类结果。本发明对信息检索和自然语言处理中的多任务学习、文档向量化等方向有重要作用。
-
公开(公告)号:CN115114428A
公开(公告)日:2022-09-27
申请号:CN202210673842.8
申请日:2022-06-15
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F16/953 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质,涉及自然语言处理技术领域。解决了现有生成式文本摘要技术在生成的时候并没有主动地去关注这些潜在的主题信息,导致在生成过程中失去部分重要信息的问题。所述方法包括:对新闻文本进行清理,去除所述新闻文本中无用的符号和信息;利用公开语料库进行主题模型的训练,获取主题语义矩阵;根据获取的主题语义矩阵结合深度学习神经网络建立新闻文本的专用生成式摘要模型,并利用公开数据集训练模型,获取数据集训练模型;将新闻文本的清洗步骤中处理的文本输入至数据集训练模型,利用主题信息进行指导摘要生成,获得摘要结果。本发明应用于新闻信息处理技术领域。
-
公开(公告)号:CN114330373A
公开(公告)日:2022-04-12
申请号:CN202111470031.X
申请日:2021-12-03
Applicant: 哈尔滨工业大学
IPC: G06F40/51 , G06F40/58 , G06F40/289 , G06K9/62
Abstract: 本发明公开了一种基于ELECTRA的翻译质量估计伪数据生成方法。对于句子级QE伪数据,使用基于机器译文作为输入母本生成伪数据和基于人工后编辑译文生成伪数据产生两种数据分布的伪数据,并针对数据分布差异提出了先使用人工后编辑译文生成的伪数据对模型进行初次训练再使用机器译文生成的伪数据与原数据混合后的数据集二次训练的方法。对于词语级伪数据,针对训练数据标签分布不平衡的问题,生成了分布更为合理的伪数据,采取先使用得到的伪数据对模型训练再使用原数据集进行二次训练的方法。本发明针对翻译质量估计数据稀缺这一问题。
-
公开(公告)号:CN113836261A
公开(公告)日:2021-12-24
申请号:CN202110998664.1
申请日:2021-08-27
Applicant: 哈尔滨工业大学 , 黑龙江阳光惠远信息技术有限公司
IPC: G06F16/33 , G06F16/34 , G06F40/289 , G06Q50/18
Abstract: 一种专利文本新颖性/创造性预测方法及装置,涉及自然语言处理中的文本匹配技术,目的是为了对专利申请文件的新颖性和/或创造性进行初步的预测判断。所述方法包括:利用主题模型对待预测专利文本与授权专利文本进行处理,得到各关键词的主题分布;计算各专利文本的各关键词的主题分布平均值;利用BERT模型对待预测专利文本与授权专利文本进行处理;将各专利文本的各关键词的主题分布的平均值和BERT模型的输出进行拼接,然后输入至全连接层;利用激活函数对全连接层的输出进行计算,得到待预测专利文本具备新颖性/创造性的概率。所述装置包括主题模块、主题分布平均值计算模块、BERT模块、拼接模块和概率计算模块。
-
公开(公告)号:CN108960317B
公开(公告)日:2021-09-28
申请号:CN201810680474.3
申请日:2018-06-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06K9/62 , G06F40/247 , G06F40/284 , G06F40/242 , G06F40/58
Abstract: 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,本发明涉及跨语言文本分类方法。本发明的目的是为了解决现有基于同义词替换的方法分类准确率低,现有基于翻译的方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用的问题。过程为:一:语料预处理:二:通过梯度优化方法优化总的损失函数,使总的损失函数达到最小值,对应一组词向量和一个分类器;三:取概率最大的标签作为目标端语言T上的测试文本的分类结果;与测试集的标准结果对比,得到测试准确率和召回率指标。本发明用于跨语言文本分类领域。
-
公开(公告)号:CN113378024A
公开(公告)日:2021-09-10
申请号:CN202110566115.7
申请日:2021-05-24
Applicant: 哈尔滨工业大学
IPC: G06F16/951 , G06F16/9536 , G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1:采集网络上各种热点信息标题,进行非中文、非英文、非数字字符的清理并存储在数据库中;步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。本发明用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。
-
-
-
-
-
-
-
-
-