一种基于hive的数据汇聚方法

    公开(公告)号:CN112527881A

    公开(公告)日:2021-03-19

    申请号:CN202011488387.1

    申请日:2020-12-16

    Abstract: 本发明公开了一种基于hive的数据汇聚方法,采集数据并将相同的数据统一以标签描述实体特征,将数据的标签按粒度划分为一级标签、二级标签,并根据实际需求细化为三级标签;根据标签指标体系的属性分别创建对应的原始数据表,用于存储根据不同属性分类的数据;对不同分区存储的原始数据表分别进行ETL处理,生成用于进行批查询和数据管理操作的全量标签汇聚表;对全量标签汇聚表作行列转换,将各一级标签所属的三级标签分组并压缩,生成全量标签结果表;去除全量标签结果表的日期项并将其导入ElasticSearch中提供给应用做交互式和批量搜索查询。能够实现各类标签之间的解耦和各类标签和标签结果表之间的解耦,同时提高标签结果表的刷新效率。

Patent Agency Ranking