-
公开(公告)号:CN117057346A
公开(公告)日:2023-11-14
申请号:CN202310693345.9
申请日:2023-06-12
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F40/289 , G06F40/268 , G06F40/242 , G06F18/23213 , G06F16/35
Abstract: 本发明公开一种基于加权TextRank和K‑means的领域关键词抽取方法,包括:从网络相关平台获取数据,建立军事类外部词典;对获取的数据进行预处理,包括中文分词、词性标注和去停用词;根据词位置和词性为词语赋予权重;通过网格搜索得出n组结果,以最优值对应权重参数及算法参数为最终参数;以算得出的参数形成最终关键词的得分;根据计算的分数对单词进行排序,选择前n个词作为关键词;在抽取关键词的基础上进行K‑means聚类,保留领域关键词。本发明在原有TextRank公式基础上利用了词语位置特征、词性特征,很大程度上增强了词语语义信息,有助于提升关键词抽取的准确率。
-
公开(公告)号:CN116822513A
公开(公告)日:2023-09-29
申请号:CN202310652396.7
申请日:2023-06-02
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F40/295 , G06F40/30 , G06F16/35 , G06F40/205 , G06F40/242 , G06F18/241 , G06F18/25 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种融合实体类型与关键词特征的命名实体识别方法,包括:从待处理文本中提取待处理文本中的关键词特征和实体类型特征;将关键词特征、实体类型特征和待处理文本共同送入编码层获取对应的向量化表示;将关键词向量、实体类型特征向量和文本向量进行向量融合;对融合后的向量使用多头自注意力机制;将注意力机制输出结果输入训练好的实体识别二分类器中,抽取相应的实体信息。本发明通过在编码层引入实体类型特征向量增强对文本语义信息的利用、引入关键词特征向量加强对文本特征信息的利用和引入多头注意力机制对文本位置关系的利用这三方面的改进,增强模型在命名实体识别过程中对文本语义的理解,以提高实体识别的准确率。
-
公开(公告)号:CN116521882A
公开(公告)日:2023-08-01
申请号:CN202310624760.9
申请日:2023-05-30
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F16/35 , G06F16/36 , G06F16/901 , G06N5/02 , G06N3/0464 , G06N3/08
Abstract: 本发明属于文本分类技术领域,特别涉及一种基于知识图谱的领域长文本分类方法及系统,该方法首先利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量;然后构建知识图谱和依存关系图;将知识图谱和依存关系图分别输入两个GCN模块,基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量;其次使用图结构掩码模型分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;最后采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。本发明通过融合知识特征和数据特征,提升领域长文本分类的准确性。
-
-