发明公开
- 专利标题: 一种融合复发细胞的长文本命名实体识别方法
-
申请号: CN202311315356.X申请日: 2023-10-11
-
公开(公告)号: CN117195901A公开(公告)日: 2023-12-08
- 发明人: 马甲林 , 韩庆宾 , 陈伟 , 古汉钊 , 李澳繁 , 徐培轩 , 谢乾 , 张粤 , 张琳
- 申请人: 淮阴工学院
- 申请人地址: 江苏省淮安市经济技术开发区枚乘东路1号
- 专利权人: 淮阴工学院
- 当前专利权人: 淮阴工学院
- 当前专利权人地址: 江苏省淮安市经济技术开发区枚乘东路1号
- 代理机构: 淮安市科文知识产权事务所
- 代理商 吴晶晶
- 主分类号: G06F40/295
- IPC分类号: G06F40/295 ; G06F40/30 ; G06F40/211 ; G06F40/14 ; G06N7/01
摘要:
本发明公开了一种融合复发细胞的长文本命名实体识别方法,首先对语料库中的语句进行BIO标注,获得BIO标注集。BIO标注集输入至预训练语言模型BERT,BERT输出得到每个词语的语义向量序列。将每句的语义向量序列按照句法依存进行分块,将得到的每个序列块进行并行排列。将排列后的序列块输入到块级递归变换器进行建模,每个块级传递变换器横向传递状态信息,并且加入上一时刻语义向量序列块进行交互更新,每个块级递归变换器纵向生成语句的特征矩阵,作为条件随机场CRF模型的输入,最后输出实体识别结果。本发明具有更低的计算复杂度与时间损耗,在命名实体识别与其他序列标注任务上均有广泛的应用前景。