一种融合复发细胞的长文本命名实体识别方法
摘要:
本发明公开了一种融合复发细胞的长文本命名实体识别方法,首先对语料库中的语句进行BIO标注,获得BIO标注集。BIO标注集输入至预训练语言模型BERT,BERT输出得到每个词语的语义向量序列。将每句的语义向量序列按照句法依存进行分块,将得到的每个序列块进行并行排列。将排列后的序列块输入到块级递归变换器进行建模,每个块级传递变换器横向传递状态信息,并且加入上一时刻语义向量序列块进行交互更新,每个块级递归变换器纵向生成语句的特征矩阵,作为条件随机场CRF模型的输入,最后输出实体识别结果。本发明具有更低的计算复杂度与时间损耗,在命名实体识别与其他序列标注任务上均有广泛的应用前景。
0/0