-
公开(公告)号:CN115114399A
公开(公告)日:2022-09-27
申请号:CN202210674200.X
申请日:2022-06-15
Applicant: 安徽省交通规划设计研究总院股份有限公司 , 公路交通节能与环保技术及装备交通运输行业研发中心
IPC: G06F16/33 , G06F16/31 , G06F16/35 , G06F40/284 , G06F40/30
Abstract: 本发明公开了一种基于NLP技术实现文本数据治理预处理的方法,包括以下步骤:S1、收集文档集合;S2、基于业务关键字从步骤S1得到的文档集合中得到目标集合;S3、基于NLP技术对业务关键字和目标集合进行语义分析得到分析结果;S4、根据步骤S3得到的分析结果对所有业务数据进行分类;S5、基于NLP技术对各类业务数据分别进行特征提取和信息抽取;S6、对步骤S6提取的特征和抽取的信息进行有效性处理,根据有效性处理结果保留或剔除对应的业务数据。本发明提出一种基于人工智能领域中的NLP技术实现文本数据治理预处理的方法,能够大大提高海量数据分类和数据提取的速度和效率,同时能够大幅提高准确率。