-
公开(公告)号:CN116415584A
公开(公告)日:2023-07-11
申请号:CN202310121606.X
申请日:2023-02-16
Applicant: 南京邮电大学
IPC: G06F40/295 , G06F16/33 , G06F16/35 , G06F18/214 , G06F18/241
Abstract: 本发明公开了一种基于域内实体替换的疫情中文数据增强方法,方法包括:获取关于疫情防护和诊疗的文本数据,并确定实体类型;根据确定的实体类型,对部分文本进行实体标注,将得到的标注好的文本数据放入模型中进行训练,并对剩余文本进行实体抽取;针对抽取得到的实体构建以标签为索引的实体数据库;基于所述实体数据库,对文本数据的文本进行域内的实体替换,得到增强后的文本数据。