基于Lattice LSTM的古文领域命名实体识别方法和系统

    公开(公告)号:CN111738002A

    公开(公告)日:2020-10-02

    申请号:CN202010454177.4

    申请日:2020-05-26

    Abstract: 本发明公开了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质,其中,该方法包括:采用甲言分词对预训练古文数据进行分词;采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。该方法采用甲言(jiayan)分词工具进行古文数据的分词,分词效果较好且符合语境,提高了古文分词的准确性;利用word2vec训练古文字、词向量,通过大量的文本获得质量更高的字词向量;将字向量和词向量共同作为Lattice LSTM模型的输入,提升了古文领域数据实体识别的效果。

Patent Agency Ranking