一种融合多粒度信息的中文命名实体识别方法、设备和介质

    公开(公告)号:CN114781380A

    公开(公告)日:2022-07-22

    申请号:CN202210277553.6

    申请日:2022-03-21

    Abstract: 本发明提出一种融合多粒度信息的中文命名实体识别方法、设备和介质。所述方法步骤如下:(1)获取领域语料数据集,将数据集进行预处理并分为训练集、测试集、验证集;(2)提取(1)预处理后的语料数据中字符、软词、部首级预训练向量并进行融合;(3)构建融合多粒度信息的中文命名实体识别模型;(4)将(2)所得的数据输入到模型中进行训练;(5)利用(4)所得的识别模型对待识别数据进行处理与计算,得到命名实体识别结果。本发明针对中文命名实体识别存在的不足,通过融合部首级信息利用序列中字符内部固有的语义信息,利用扩展的软词模块获取了词级别的语义信息,将两者融入到字符嵌入向量中,提高了中文命名实体识别的精度。

Patent Agency Ranking