发明授权
- 专利标题: 一种基于领域特征的文本数据扩增方法
-
申请号: CN202111371729.6申请日: 2021-11-18
-
公开(公告)号: CN114036907B公开(公告)日: 2024-06-25
- 发明人: 祝和明 , 王德胜 , 邓涛 , 李岩松 , 孙涛 , 王存超 , 梅文哲 , 赵新冬 , 郭韬 , 何泽家 , 唐锦 , 崔林 , 张力 , 戴威 , 罗珊珊 , 刘媛 , 卢茜 , 于聪聪
- 申请人: 国网江苏省电力有限公司电力科学研究院 , 国网江苏省电力有限公司
- 申请人地址: 江苏省南京市江宁区帕威尔路1号;
- 专利权人: 国网江苏省电力有限公司电力科学研究院,国网江苏省电力有限公司
- 当前专利权人: 国网江苏省电力有限公司电力科学研究院,国网江苏省电力有限公司
- 当前专利权人地址: 江苏省南京市江宁区帕威尔路1号;
- 代理机构: 苏州市中南伟业知识产权代理事务所
- 代理商 刘卉
- 主分类号: G06F40/166
- IPC分类号: G06F40/166 ; G06F40/247 ; G06F40/284
摘要:
本申请公开了一种基于领域特征的文本数据扩增方法,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,根据四种扩增方法,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法,可以在扩增文本数据的同时,体现出文本的领域特征,提高了文本数据扩增的质量,并提高了基于此文本构建的AI系统的服务质量。
公开/授权文献
- CN114036907A 一种基于领域特征的文本数据扩增方法 公开/授权日:2022-02-11