-
公开(公告)号:CN112527881A
公开(公告)日:2021-03-19
申请号:CN202011488387.1
申请日:2020-12-16
Applicant: 国家电网有限公司客户服务中心 , 江苏瑞中数据股份有限公司 , 南瑞集团有限公司
IPC: G06F16/25 , G06F16/2458
Abstract: 本发明公开了一种基于hive的数据汇聚方法,采集数据并将相同的数据统一以标签描述实体特征,将数据的标签按粒度划分为一级标签、二级标签,并根据实际需求细化为三级标签;根据标签指标体系的属性分别创建对应的原始数据表,用于存储根据不同属性分类的数据;对不同分区存储的原始数据表分别进行ETL处理,生成用于进行批查询和数据管理操作的全量标签汇聚表;对全量标签汇聚表作行列转换,将各一级标签所属的三级标签分组并压缩,生成全量标签结果表;去除全量标签结果表的日期项并将其导入ElasticSearch中提供给应用做交互式和批量搜索查询。能够实现各类标签之间的解耦和各类标签和标签结果表之间的解耦,同时提高标签结果表的刷新效率。