-
公开(公告)号:CN112651245A
公开(公告)日:2021-04-13
申请号:CN202011577267.9
申请日:2020-12-28
Applicant: 南京邮电大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种序列标注模型及序列标注方法,包括输入层,BiLSTM网络层和CRF层。利用该模型进行序列标注任务时,首先在输入层加入ELMo字向量作为额外特征,使每个字符的表示是其字符向量和ELMo表示的拼接,其次在BiLSTM网络层中除了使用正向LSTM网络学习每个字符的历史特征,也以逆序将序列输入到反向LSTM网络中学习每个字符的后续特征,将字符的上下文特征拼接输入到CRF层,最后使用条件随机场进行联合建模得到全局最优的标签序列。本发明提供的方法在中文命名实体识别的数据集如Boson、LDC2009等上取得了良好的性能,其平均性能F1值提高了4.95%。