结合图注意力网络和对比学习的网站服务分类方法

    公开(公告)号:CN117171611A

    公开(公告)日:2023-12-05

    申请号:CN202311013406.9

    申请日:2023-08-11

    Abstract: 本发明涉及结合图注意力网络和对比学习的网站服务分类方法,属于计算机与信息科学领域。本发明首先利用BERT提取网站的文本语义特征;其次根据网页的HTML代码构建网页DOM解析树,同时根据URL链接生成网页关系图;然后利用图注意力网络并结合对比学习方法,提取网页DOM解析树和网页关系图的结构特征,生成网站结构表示;最后融合网站的文本语义特征和结构表示进行网站服务分类。本发明针对现有方法未充分利用网站结构信息的问题,提出结合图注意力网络和对比学习的网站服务分类方法,强化网站结构特征,提高网站服务分类准确率。

    融合知识提示的法律文本小样本命名实体识别方法

    公开(公告)号:CN115062104A

    公开(公告)日:2022-09-16

    申请号:CN202210535070.1

    申请日:2022-05-17

    Abstract: 本发明涉及融合知识提示的法律文本小样本命名实体识别方法,属于自然语言处理与机器学习领域。本发明首先定义裁判文书的提示性模板、标签集和自然词集的映射关系,从中国裁判文书网平台获取了2760篇裁定书和判决书文档;然后采用Bert模型对案件陈述和判决结果句子的嵌入向量进行编码,通过注意力加权得到句子的特征表示,结合构造的模板指导生成式预训练模型GPT生成词的类别向量;最后,利用全连接层将句子向量转化为跨度向量,生成语义标签,最小化其与标签向量的损失函数。本发明有效缓解了在法律领域下,由于其标注样本较少、与通用领域的实体类型分布不同造成的过拟合与分类不准确的问题,提升了法律实体识别的准确率和模型的迁移能力。

Patent Agency Ranking