一种面向领域实体关系联合抽取的语料标注方法及系统

    公开(公告)号:CN112149423B

    公开(公告)日:2024-01-26

    申请号:CN202011108388.9

    申请日:2020-10-16

    Abstract: 本发明共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本发明公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。(56)对比文件昝红英等.面向医学文本的实体关系抽取研究综述.郑州大学学报(理学版).2020,第52卷(第4期),第1页-15页.吴小龙等.基于等价压缩快速聚类的Web表格知识抽取.中文信息学报.2019,第33卷(第4期),第75页-84页.Jizhi Chen等.Jointly Extract Entitiesand Their Relations From BiomedicalText.IEEE.2019,第7卷第162818页-162827页.黄培馨;赵翔;方阳;朱慧明;肖卫东.融合对抗训练的端到端知识三元组联合抽取.计算机研究与发展.2019,第56卷(第12期),第2536页-2548页.

Patent Agency Ranking