-
公开(公告)号:CN115017903A
公开(公告)日:2022-09-06
申请号:CN202210697632.2
申请日:2022-06-20
Applicant: 安徽大学
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F16/35
Abstract: 本发明提供文档层次结构联合全局局部信息抽取关键短语方法及系统,方法包括:分词和磁性标注,NP分块;判断文档长度,根据文档长度使用BERT模型进行文档和单词的嵌入;全局相似性度量,本发明创新性地使用文档标题和结尾来对候选关键短语进行全局相似度评估,解决因为向量空间对齐造成的对较长候选短语的偏爱;局部相似度评估,采用全新的主题中心度,对全文的候选关键短语进行主题划分和聚类,充分捕获到局部显著信息;结合位置信息、全局相似度、局部相似度对候选短语进行综合评估并打分,然后根据得分进行排名;进行后处理操作,以选择关键短语。本发明解决了语义丢失、偏爱长短语、主体信息挖掘不充分导致关键短语抽取准确率低的技术问题。
-
公开(公告)号:CN116502647A
公开(公告)日:2023-07-28
申请号:CN202310228446.9
申请日:2023-03-06
Applicant: 安徽大学
IPC: G06F40/30 , G06F40/295 , G06N3/0442
Abstract: 本发明提出一种基于概念定义与数据增强的上下位关系抽取方法,包括,利用关键词抽取技术将自然文本中的概念对抽取出来,基于概念对和概念对对应的上下文关系构建概念三元组,将概念三元组的集合作为训练数据集;获取训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量;构建输入是训练数据集,输出是概念向量之间的偏移向量、概念向量、概念定义的向量融合后的向量的上下位关系预测模型,根据训练数据集和融合后的向量对上下位关系预测模型进行训练;获取测试文本中的待预测概念三元组,将待预测概念三元组输入训练完成的上下位关系预测模型,根据输出的分量对待预测概念三元组的是否存在上下位关系进行预测。
-
公开(公告)号:CN115564611A
公开(公告)日:2023-01-03
申请号:CN202211303426.5
申请日:2022-10-24
Applicant: 安徽大学
IPC: G06Q50/18 , G06F18/23 , G06F18/24 , G06N3/0464 , G06N3/08
Abstract: 本发明提供利用多视图表示融合进行专利发明人消歧的方法及系统,方法包括:对专利数据进行预聚类;构建多个局部视图和一个全局视图;利用PatentBERT预训练模型生成文本语义表示向量;利用GAT表征模型并加入生成的节点语义表示向量在所有视图上分别获取对应节点表示向量,该表示向量融合语义信息和结构信息;融合局部视图获取的节点表示向量得到一个局部视图融合向量;接着将局部视图融合向量和全局视图向量借助对比损失进行模型训练,得到节点最终融合向量;利用层次凝聚聚类方法对最终向量进行聚类得到消歧结果。本发明通过在局部视图学习嵌入能够捕获更深层次的局部结构信息,同时结合对比学习的思想,在局部结构信息的基础上捕获全局结构信息。
-
-