-
公开(公告)号:CN104156505B
公开(公告)日:2017-12-15
申请号:CN201410350690.3
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/50
Abstract: 本发明涉及一种基于用户行为分析的Hadoop集群作业调度方法及装置,包括以下步骤:收集Hadoop集群产生的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量及各资源组提交作业的作业类型;根据每个资源组提交作业的作业类型和作业数量,确定各资源组的最小资源占用限额;在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。本发明能够为作业级的调度提供准确和真实的依据。
-
公开(公告)号:CN104156400A
公开(公告)日:2014-11-19
申请号:CN201410350005.7
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30312 , G06F17/30203 , G06F17/30516
Abstract: 本发明涉及一种海量网络流数据的存储方法及装置,包括以下步骤:采集任一时段内用户提交的数据查询请求,根据数据查询请求得到查询条件;分析查询条件中的时间属性及特征属性,选择超出预设出现频率的阈值的特征属性作为聚簇属性;为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件;采集机接收网络流数据并转发给文件服务器,文件服务器按照配置文件存储接收到的网络流数据。本发明使查询条件直接映射到相应的空间划分中,直接进行数据的写入或查询,在最大程度上降低加载和存储的开销的同时,保证查询性能。
-
公开(公告)号:CN104156400B
公开(公告)日:2017-07-11
申请号:CN201410350005.7
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种海量网络流数据的存储方法及装置,包括以下步骤:采集任一时段内用户提交的数据查询请求,根据数据查询请求得到查询条件;分析查询条件中的时间属性及特征属性,选择超出预设出现频率的阈值的特征属性作为聚簇属性;为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件;采集机接收网络流数据并转发给文件服务器,文件服务器按照配置文件存储接收到的网络流数据。本发明使查询条件直接映射到相应的空间划分中,直接进行数据的写入或查询,在最大程度上降低加载和存储的开销的同时,保证查询性能。
-
公开(公告)号:CN104156505A
公开(公告)日:2014-11-19
申请号:CN201410350690.3
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/50
Abstract: 本发明涉及一种基于用户行为分析的Hadoop集群作业调度方法及装置,包括以下步骤:收集Hadoop集群产生的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量及各资源组提交作业的作业类型;根据每个资源组提交作业的作业类型和作业数量,确定各资源组的最小资源占用限额;在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。本发明能够为作业级的调度提供准确和真实的依据。
-
公开(公告)号:CN103218423A
公开(公告)日:2013-07-24
申请号:CN201310113295.9
申请日:2013-04-02
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种数据查询方法及装置。其中,数据查询方法包括:接收用户提供的查询条件,所述查询条件包括查询关键字、编辑距离阈值以及滑动窗口宽度;提取所述查询关键字的特征值,组成关键字特征索引;提取当前滑动窗口中基本窗口的特征值,组成滑动窗口的特征索引,所述滑动窗口包含设定数目的基本窗口,所述滑动窗口的特征索引为该滑动窗口中所有基本窗口的特征索引组成的队列;在达到预设的查询触发条件时,触发对当前滑动窗口的查询;根据所述关键字特征索引和编辑距离阈值,对当前滑动窗口的特征索引进行过滤,得到满足过滤下限的候选字符串集。本发明的数据查询方法及装置能有效弥补在数据流场景下进行关键字精确查询的不足,具备较好的查询容错能力。
-
公开(公告)号:CN103218423B
公开(公告)日:2016-09-07
申请号:CN201310113295.9
申请日:2013-04-02
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种数据查询方法及装置。其中,数据查询方法包括:接收用户提供的查询条件,所述查询条件包括查询关键字、编辑距离阈值以及滑动窗口宽度;提取所述查询关键字的特征值,组成关键字特征索引;提取当前滑动窗口中基本窗口的特征值,组成滑动窗口的特征索引,所述滑动窗口包含设定数目的基本窗口,所述滑动窗口的特征索引为该滑动窗口中所有基本窗口的特征索引组成的队列;在达到预设的查询触发条件时,触发对当前滑动窗口的查询;根据所述关键字特征索引和编辑距离阈值,对当前滑动窗口的特征索引进行过滤,得到满足过滤下限的候选字符串集。本发明的数据查询方法及装置能有效弥补在数据流场景下进行关键字精确查询的不足,具备较好的查询容错能力。
-
-
-
-
-