-
公开(公告)号:CN114625881A
公开(公告)日:2022-06-14
申请号:CN202111471322.0
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
Abstract: 本发明提出一种基于ERP‑GAT的经济领域知识图谱补全算法。ERP‑GAT算法采用编码器‑解码器结构,编码器引入图注意力机制,输入实体嵌入矩阵和关系嵌入矩阵,计算每一个目标实体相邻的三元组的注意力分数,并更新嵌入矩阵,能够获取给定实体或节点周围的多跳关系、获取给定实体附近的丰富的语义信息和关系中所扮演的角色、对现有的知识在语义上相似的关系群进行巩固,解码器使用ConvKB模型,使用卷积层得到评分函数来分析在每一个维度上的全局嵌入特性并概括ERP‑GAT模型中的过渡特性。最终在标准数据集FB15K237的五项指标和NELL‑995的四项指标上相较其他现有算法有显著提升,取得了知识图谱补全任务的最佳效果。
-
公开(公告)号:CN114385796A
公开(公告)日:2022-04-22
申请号:CN202111471317.X
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06F16/332 , G06K9/62
Abstract: 本发明公开了一种基于fasttext的垃圾信息识别方法,本发明涉及自然语言处理和机器学习领域,结合TF‑IDF算法和fasttext算法,形成新的TF‑fasttext算法提供了对垃圾信息识别的效率。本发明对传统的fasttext算法进行了三个方面的优化。首先将TF‑IDF算法进行改进,将同类文本和不同文本之间的关系考虑进去,引入参数类频,来代表特征词在某类中出现的次数。其次将改进后的TF‑IDF算法与n‑gram模型结合,形成新的TF‑IDF‑N算法对n‑gram操作后的词进行特征筛选,根据特征词权重保留高区分度的词,去掉低区分度的词。从而消减了fasttext模型的噪声数据,保留更具代表性的特征词序列。最后在fasttext算法的输出层用层次softmax函数提升了模型判断的精度,而且缩短了样本训练的时间。
-
公开(公告)号:CN114610874A
公开(公告)日:2022-06-10
申请号:CN202111471316.5
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06F16/35
Abstract: 本发明公开了一种基于BERT模型的安全事故标签分类方法,属于自然语言处理领域。本发明首先进行对文本进行预处理,精简文本,提高处理效率;然后使用基于BERT预训练模型实现抽取式文本摘要,使用NEZHA预训练语言模型及PGN模型实现生成式文本摘要;最后通过ALBERT训练模型,借助迁移学习的思想进行多标签多任务分类。可对安全事故及原因分类,为安全生产监管、事故隐患排查和分析奠定基础,实现安全生产事故分类水平的提升。
-
-