发明公开
- 专利标题: 一种重复数据自动提取方法及系统
- 专利标题(英): Method and system for automatically extracting duplicate data
-
申请号: CN201410639460.9申请日: 2014-11-13
-
公开(公告)号: CN104361079A公开(公告)日: 2015-02-18
- 发明人: 杜军 , 李红梅 , 张学俊 , 宋士峰 , 李冬 , 常英贤 , 石鑫磊 , 戚鲁凤 , 孙海涛
- 申请人: 国网山东省电力公司 , 国网山东省电力公司电力科学研究院 , 山东鲁能软件技术有限公司
- 申请人地址: 山东省济南市市中区经二路150号
- 专利权人: 国网山东省电力公司,国网山东省电力公司电力科学研究院,山东鲁能软件技术有限公司
- 当前专利权人: 国网山东省电力公司,国网山东省电力公司电力科学研究院,山东鲁能软件技术有限公司
- 当前专利权人地址: 山东省济南市市中区经二路150号
- 代理机构: 济南圣达知识产权代理有限公司
- 代理商 张勇
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种重复数据自动提取方法及系统,系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;系统服务器利用数据库技术对重复的数据进行去重。本发明能够实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。