-
公开(公告)号:CN114036907A
公开(公告)日:2022-02-11
申请号:CN202111371729.6
申请日:2021-11-18
Applicant: 国网江苏省电力有限公司电力科学研究院 , 国网江苏省电力有限公司
Inventor: 祝和明 , 王德胜 , 邓涛 , 李岩松 , 孙涛 , 王存超 , 梅文哲 , 赵新冬 , 郭韬 , 何泽家 , 唐锦 , 崔林 , 张力 , 戴威 , 罗珊珊 , 刘媛 , 卢茜 , 于聪聪
IPC: G06F40/166 , G06F40/247 , G06F40/284
Abstract: 本申请公开了一种基于领域特征的文本数据扩增方法,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,根据四种扩增方法,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法,可以在扩增文本数据的同时,体现出文本的领域特征,提高了文本数据扩增的质量,并提高了基于此文本构建的AI系统的服务质量。