基于知识图谱的领域长文本分类方法及系统

    公开(公告)号:CN116521882A

    公开(公告)日:2023-08-01

    申请号:CN202310624760.9

    申请日:2023-05-30

    Abstract: 本发明属于文本分类技术领域,特别涉及一种基于知识图谱的领域长文本分类方法及系统,该方法首先利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量;然后构建知识图谱和依存关系图;将知识图谱和依存关系图分别输入两个GCN模块,基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量;其次使用图结构掩码模型分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;最后采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。本发明通过融合知识特征和数据特征,提升领域长文本分类的准确性。

Patent Agency Ranking