-
公开(公告)号:CN112836062B
公开(公告)日:2022-05-13
申请号:CN202110039879.0
申请日:2021-01-13
Applicant: 哈尔滨工程大学 , 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。
-
公开(公告)号:CN112131404A
公开(公告)日:2020-12-25
申请号:CN202010990634.1
申请日:2020-09-19
Applicant: 哈尔滨工程大学
IPC: G06F16/36 , G06F16/35 , G06F40/166 , G06F40/189 , G06F40/211 , G06F40/30 , G06N3/04 , G06N3/08 , G06Q10/10 , G06Q40/08
Abstract: 本发明属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。
-
公开(公告)号:CN111046665B
公开(公告)日:2023-10-13
申请号:CN201911222879.3
申请日:2019-12-03
Applicant: 哈尔滨工程大学
IPC: G06F40/289 , G06F40/30
Abstract: 本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。
-
公开(公告)号:CN116682016A
公开(公告)日:2023-09-01
申请号:CN202310697620.4
申请日:2023-06-13
IPC: G06V20/10 , G06V10/774 , G06V10/44 , G06V10/26 , G06V10/82 , G06V10/40 , G06N3/0464
Abstract: 一种基于深度学习的昆虫目标检测方法、系统及设备,它属于人工智能领域。本发明解决了现有昆虫目标检测领域图像数据稀缺,且昆虫图像数据获取代价、标注代价高的问题。本发明采取的技术方案为:获取单目标昆虫标本图像数据集;获取自然环境背景图像数据集;利用单目标昆虫标本图像数据集和自然环境背景图像数据集构建昆虫目标检测数据集;利用构建的数据集训练昆虫目标检测模型;根据模型反馈继续扩充数据集,使用扩充后的数据集继续训练模型,循环往复直至模型性能不再提升。本发明方法可以应用于昆虫目标检测领域。
-
公开(公告)号:CN111078875B
公开(公告)日:2022-12-13
申请号:CN201911222877.4
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。
-
公开(公告)号:CN111046179B
公开(公告)日:2022-07-15
申请号:CN201911222868.5
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于文本分类处理技术领域,具体涉及一种面向特定领域开放网络问句的文本分类方法。本发明克服了在执行一些特定领域的网络开放文本分类任务的情况下,缺乏足够可用的带类别标记的语料集,且网络文本信息量低、噪音大的问题,并为该领域的开放网络问句的层次分类提供了新方法。本发明利用了特定领域的开放网络问句及书面文本使领域的词嵌入表示更符合领域知识特征,同时,使用半监督方法加速分类模型训练并减少所需的标记样本。此外,还结合了条件概率实现了在多粒度层级的类别划分。本发明可以在问答系统、情感分析、领域知识库等领域辅助数据的提取、判别和构建。
-
公开(公告)号:CN112836507A
公开(公告)日:2021-05-25
申请号:CN202110039892.6
申请日:2021-01-13
Applicant: 哈尔滨工程大学
IPC: G06F40/289 , G06F16/36 , G06F16/35
Abstract: 本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。
-
公开(公告)号:CN111078875A
公开(公告)日:2020-04-28
申请号:CN201911222877.4
申请日:2019-12-03
Applicant: 哈尔滨工程大学
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。
-
公开(公告)号:CN119445154A
公开(公告)日:2025-02-14
申请号:CN202411489400.3
申请日:2024-10-24
Applicant: 哈尔滨工程大学
Abstract: 本发明公开了一种基于增量学习的生成图像检测模型的构建方法及检测方法,模型构建方法包括:构建图像数据集,数据集包括若干子集,子集包括生成图像和真实图像;选取图像数据集中的指定真实生成图像对数量最多的子集,输入基础特征提取器进行预训练处理,获得损失函数,基于损失函数对基础特征提取器进行优化,获得预训练特征提取器;以预训练特征提取器作为增量阶段特征提取器,在此基础上进行增量训练,设计增量阶段的损失函数,并通过增量阶段的损失函数训练第t阶段的所述预训练特征提取器,直至训练完图像数据集中剩余的子集,获得生成图像检测模型。本发明不仅提高了生成图像检测的准确率,还具备持续学习的能力。
-
公开(公告)号:CN117593699A
公开(公告)日:2024-02-23
申请号:CN202311655232.6
申请日:2023-12-05
Applicant: 哈尔滨工程大学 , 黑龙江省农垦科学院 , 黑龙江生态工程职业学院(中共黑龙江省森林工业总局委员会党校)
Abstract: 一种昆虫密度估计系统,它属于人工智能领域。本发明解决了现有昆虫密度估计方法需要耗费大量的人力物力,且估计结果的准确性差的问题。本发明的系统包括监控设备和服务器,且服务器上部署有昆虫密度估计模型,昆虫密度估计模型包括目标检测模块和密度估计模块;所述监控设备用于捕捉环境图像,并将捕捉的环境图像发送至服务器;所述目标检测模块用于对捕捉的环境图像进行目标检测,密度估计模块用于根据目标检测结果进行昆虫密度估计。本发明可以应用于昆虫密度估计。
-
-
-
-
-
-
-
-
-