-
公开(公告)号:CN108519908A
公开(公告)日:2018-09-11
申请号:CN201810158916.8
申请日:2018-02-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F9/48
Abstract: 本发明公开了一种任务动态管理方法和装置。该方法在客户端侧执行,包括:接收用户提交的元数据操作信息;根据所述元数据操作信息,在实时监听器中操作元数据,并将操作后的所述元数据缓存在实时监听器中;其中,所述实时监听器以分布式协调服务zookeeper搭建,所述元数据为树形结构,所述树形结构的一级节点为流数据节点,二级节点为任务节点。该方法在任务控制器执行,包括:以Storm常驻任务的方式,预先占用中央处理器CPU资源;监听实时监听器中缓存的元数据;所述实时监听器以zookeeper搭建;如果所述实时监听器中缓存的元数据发生变化,则根据发送变化的所述元数据,更新已缓存的任务逻辑。通过本发明可以缩短任务生效时间,降低资源消耗。
-
公开(公告)号:CN113079034B
公开(公告)日:2022-12-20
申请号:CN202110261760.8
申请日:2021-03-10
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L41/14 , H04L61/4511 , H04L9/40
Abstract: 本发明公开了一种互联网基础资源及其关系模型、及模型的构建、应用方法。互联网基础资源及其关系模型构建方法,包括:将相同类型的互联网基础资源以集合的形式表示,以获得多个集合;获取每个互联网基础资源的属性以及各个互联网基础资源之间的关系;基于多个集合、每个互联网基础资源的属性以及各个互联网基础资源之间的关系,构建互联网基础资源及其关系模型。本发明为互联网基础资源提供一种描述方法,包括资源、资源之间的关系以及资源属性的定义,并在此基础上提供多个互联网资源之间的操作,用以支持对互联网上常用行为进行研究的支撑。
-
公开(公告)号:CN109885642B
公开(公告)日:2021-11-02
申请号:CN201910119254.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。
-
公开(公告)号:CN109918229A
公开(公告)日:2019-06-21
申请号:CN201910119274.5
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F11/14
Abstract: 本发明公开了一种非日志模式的数据库集群副本构建方法及装置,方法包括:加载工具直连第一个副本,进行数据实时入库加载,并以事务为单位构建同步记录;复制流程调度器加载元数据,检查节点状态,构造多个副本的拓扑关系,启动各个节点上的复制执行器,将构建的拓扑信息携带在复制处理消息中通过消息总线发送给复制执行器;复制执行器从消息总线获取复制处理消息,解析拓扑信息,查找到数据源,通过自身副本的全局唯一GID标识以及数据源的同步记录跟踪表,检查增量数据,如果没有,则循环等待,否则执行下步;复制执行器计算增量数据的同步范围信息,读取给定范围的数据,加载至本身节点上的副本,并构造本次数据复制的同步记录,执行步骤3。
-
公开(公告)号:CN109902065A
公开(公告)日:2019-06-18
申请号:CN201910120843.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/14 , G06F16/182
Abstract: 本发明公开了一种访问分布式集群外部数据方法及装置,所述方法包括:将文件服务进程设置在数据库集群系统以外的主机上,并设置文件服务进程的参数,启动所述文件服务进程;在数据库集群系统的数据节点需要访问外部数据时,启动ExternalTableScan算子,连接所述文件服务进程,基于预先创建的外部表进行外部数据访问。
-
公开(公告)号:CN109885453A
公开(公告)日:2019-06-14
申请号:CN201910119278.3
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于流数据处理的大数据平台监控系统,所述系统包括:数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示。
-
公开(公告)号:CN109815295A
公开(公告)日:2019-05-28
申请号:CN201910119281.5
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种分布式集群数据导入方法及装置,所述方法包括:数据节点接收Master节点下发的数据加载命令,启动ForeignTableScan算子加载文件加载进程,通过ForeignTableScan算子基于预先设置的外部表,把要请求的数据及外部文件相关信息发送给文件加载进程,其中,文件加载进程设置第三方ETL服务器中;文件加载进程根据数据节点发来的信息顺序读取数据文件,并将数据发送给数据节点;数据节点的ForeignTableScan算子收取数据后,将数据存储到本地。
-
公开(公告)号:CN109815219A
公开(公告)日:2019-05-28
申请号:CN201910119266.0
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。
-
公开(公告)号:CN108519987A
公开(公告)日:2018-09-11
申请号:CN201810158889.4
申请日:2018-02-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种数据持久化方法和装置。该方法包括:从Kafka中的预设Topic内,获取预先被转换为统一数据类型的数据;选择目标存储引擎;通过Flume将所述Topic内的数据加载到所述目标存储引擎,以便对所述数据执行持久化操作;其中,在所述目标存储引擎执行持久化操作之前,将所述数据从统一数据类型转换为所述数据原来的数据类型。本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法,在本发明中,使用同一数据类型,通过一次数据序列化(转换为统一数据类型)实现了多存储引擎的统一加载,通过一次反序列化(转换为原数据类型),实现多存储引擎的高效数据持久化。
-
公开(公告)号:CN108256115A
公开(公告)日:2018-07-06
申请号:CN201810142899.9
申请日:2018-02-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
-
-
-
-
-
-
-
-
-