-
公开(公告)号:CN113836261A
公开(公告)日:2021-12-24
申请号:CN202110998664.1
申请日:2021-08-27
Applicant: 哈尔滨工业大学 , 黑龙江阳光惠远信息技术有限公司
IPC: G06F16/33 , G06F16/34 , G06F40/289 , G06Q50/18
Abstract: 一种专利文本新颖性/创造性预测方法及装置,涉及自然语言处理中的文本匹配技术,目的是为了对专利申请文件的新颖性和/或创造性进行初步的预测判断。所述方法包括:利用主题模型对待预测专利文本与授权专利文本进行处理,得到各关键词的主题分布;计算各专利文本的各关键词的主题分布平均值;利用BERT模型对待预测专利文本与授权专利文本进行处理;将各专利文本的各关键词的主题分布的平均值和BERT模型的输出进行拼接,然后输入至全连接层;利用激活函数对全连接层的输出进行计算,得到待预测专利文本具备新颖性/创造性的概率。所述装置包括主题模块、主题分布平均值计算模块、BERT模块、拼接模块和概率计算模块。
-
公开(公告)号:CN108960317B
公开(公告)日:2021-09-28
申请号:CN201810680474.3
申请日:2018-06-27
Applicant: 哈尔滨工业大学
IPC: G06F16/35 , G06K9/62 , G06F40/247 , G06F40/284 , G06F40/242 , G06F40/58
Abstract: 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,本发明涉及跨语言文本分类方法。本发明的目的是为了解决现有基于同义词替换的方法分类准确率低,现有基于翻译的方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用的问题。过程为:一:语料预处理:二:通过梯度优化方法优化总的损失函数,使总的损失函数达到最小值,对应一组词向量和一个分类器;三:取概率最大的标签作为目标端语言T上的测试文本的分类结果;与测试集的标准结果对比,得到测试准确率和召回率指标。本发明用于跨语言文本分类领域。
-
公开(公告)号:CN113378024A
公开(公告)日:2021-09-10
申请号:CN202110566115.7
申请日:2021-05-24
Applicant: 哈尔滨工业大学
IPC: G06F16/951 , G06F16/9536 , G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1:采集网络上各种热点信息标题,进行非中文、非英文、非数字字符的清理并存储在数据库中;步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。本发明用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。
-
公开(公告)号:CN111597327A
公开(公告)日:2020-08-28
申请号:CN202010323594.5
申请日:2020-04-22
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F16/9532 , G06N3/04 , G06N3/08 , G06F16/36
Abstract: 本发明公开了一种面向舆情分析的无监督式多文档文摘生成方法。步骤1:实时采集网络舆情新闻,根据网络热点进行新闻集合自动划分;步骤2:对集合内每个舆情新闻进行无监督式的抽取单文档文摘;步骤3:对集合内的所有抽取的单文档文摘进行分析,得到无监督式的多文档文摘。本发明解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题,以实现对舆情新闻的监控。
-
公开(公告)号:CN108920472B
公开(公告)日:2020-01-10
申请号:CN201810722720.7
申请日:2018-07-04
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及一种基于深度学习的机器翻译系统的融合系统及方法,属于词汇融合技术领域。所述融合系统包括输入模块、编码模块、解码模块和输出模块;所述融合方法包括输入步骤、编码步骤、解码步骤和输出步骤;所述融合系统及方法具有提高机器翻译系统融合性能指标的特点。
-
公开(公告)号:CN108960319B
公开(公告)日:2019-12-03
申请号:CN201810700571.4
申请日:2018-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。
-
公开(公告)号:CN105677913B
公开(公告)日:2019-04-26
申请号:CN201610111365.0
申请日:2016-02-29
Applicant: 哈尔滨工业大学
Abstract: 一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。
-
公开(公告)号:CN106202068B
公开(公告)日:2019-01-22
申请号:CN201610590241.5
申请日:2016-07-25
Applicant: 哈尔滨工业大学
Abstract: 基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。
-
公开(公告)号:CN107329960B
公开(公告)日:2019-01-01
申请号:CN201710514935.5
申请日:2017-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作,本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题,并有效提高了神经网络翻译中未登录词翻译的准确度,同时,其适用于各种神经网络翻译领域。
-
公开(公告)号:CN108960319A
公开(公告)日:2018-12-07
申请号:CN201810700571.4
申请日:2018-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。
-
-
-
-
-
-
-
-
-