一种基于预训练模型的特种设备中文命名实体识别方法

    公开(公告)号:CN113609859A

    公开(公告)日:2021-11-05

    申请号:CN202110893472.4

    申请日:2021-08-04

    Abstract: 一种基于预训练模型的特种设备中文命名实体识别方法,包括以下步骤:1)按照中文命名实体标注策略BIEOS对中文命名实体数据集进行标注,将实体类别分为四种类别;2)基于BERT预训练模型将中文句子转换为字向量表示;3)将字向量表示输入到biLSTM模型中,学习字向量序列双向编码,提取句子特征;4)采用CRF条件随机场学习上下文的标签概率,得到了每个汉字的所有可能的标签序列;5)最后输出汉字序列对应的实体类别。本发明通过无监督的方式对无标签语料中进行训练,能够有效解决小数据集、样本特征信息不足情况下中文命名实体提取的问题,用于构建特种设备领域的知识图谱。

Patent Agency Ranking