-
公开(公告)号:CN112528121A
公开(公告)日:2021-03-19
申请号:CN202011624214.8
申请日:2020-12-31
Applicant: 河钢数字技术股份有限公司
IPC: G06F16/951 , G06F16/172 , G06F16/182 , G06F16/2458 , G06F16/27 , G06F40/279
Abstract: 本发明公开了一种基于分布式存储的爬虫爬取数据统计方法及系统,方法包括以下步骤:步骤1:将利用爬虫程序从网页中抓取的文件临时存储入Kafka中;步骤2:对Kafka中临时存储的爬虫抓取文件进行文件类型和文件大小的统计,并将统计结果存储入Redis中;步骤3:将统计完类型和大小的爬虫爬取文件上传到FastDFS中,并记录FastDFS返回的每一条文件的存储路径;步骤4:对FastDFS中存储的爬虫爬取文件根据文件类型对文件进行分词,并将分词后的结构化数据存入ElasticSearch中。本发明能够对爬虫爬取的不同文件类型进行类型和大小统计,最终的结构化数据存放在Elasticsearch中,方便日后的检索和查阅或是进一步的数据挖掘。
-
公开(公告)号:CN114818642A
公开(公告)日:2022-07-29
申请号:CN202210606602.6
申请日:2022-05-31
Applicant: 河钢数字技术股份有限公司
IPC: G06F40/186 , G06F40/18 , G06F8/20 , G06Q10/10
Abstract: 本发明公开了数据报表动态填报方法,包括数据采集模块、数据处理模块、导入模块、填报模板、总控制模块,其中,所述数据采集模块与总控制模块通信连接,通过数据采集模块对需要填报的数据进行采集;所述数据处理模块与总控制模块通信连接,通过数据处理模块对采集的填报数据进行处理;处理后的数据导出成excel;本发明的有益效果是:已发布的表单进行填报内容修改,修改结果可实现即时更新;支持对单张填报表单数据的历史记录查看,且支持单张表单多次修改表单结构的历史记录查看、导出;通过日期选项可实现历史填报表单的快速跳转,历史表单格式不受修改表单样式影响,点击导出,可实现当前所选的报表excel格式下载。
-
公开(公告)号:CN114780093A
公开(公告)日:2022-07-22
申请号:CN202210515711.7
申请日:2022-05-11
Applicant: 河钢数字技术股份有限公司
Abstract: 本发明公开了一种大数据背景下数据分析处理服务平台,涉及数据处理分析技术领域。大数据背景下数据分析处理服务平台,支持多种数据处理框架和编程语言的综合数据分析服务平台,包括外围模块、zeppelin‑server模块、zeppelin‑interpreter模块、zeppelin‑zengine模块、zeppelin‑web模块和数据库模块。所述zeppelin‑server模块为整体系统入口,提供服务器功能、权限认证以及用户校验功能,zeppelin‑interpreter模块用于执行解释器,所述zeppelin‑zengine模块用于zeppelin中notebook的持久化和检索服务。该大数据背景下数据分析处理服务平台,本服务平台采用基于Zepeelin框架进行开发,支持多种主流的数据处理框架,包括Hadoop、Spark、Flink和R等框架,提供了主流的数据库操纵能力,包括PostgreSQL、HBase和MySQL。
-
-
-