-
公开(公告)号:CN108776698A
公开(公告)日:2018-11-09
申请号:CN201810584637.8
申请日:2018-06-08
Applicant: 湖南大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于Spark的抗偏斜的数据分片方法,包括:步骤A:获取预估的中间数据的键簇分布以及Spark应用类型,再基于获取的键簇分布生成与Spark应用类型相匹配的分片策略;键簇为键相同的键值对集合,分片策略包括分别与无需排序、需排序的应用类型相对应的基于键簇重分配的哈希算法策略和基于键簇分割的范围分片算法策略;步骤B:利用生成的分片策略计算出Map输出数据中每个键值对的reduce索引号,再基于reduce索引号的大小顺序将键值对依次写入中间数据文件中。通过上述方法解决了Spark本身的抗偏斜机制问题,解决现有的Hash方法和Range方法无法处理分片偏斜的问题。
-
-
公开(公告)号:CN110263059B
公开(公告)日:2021-05-11
申请号:CN201910438036.0
申请日:2019-05-24
Applicant: 湖南大学
IPC: G06F16/2455
Abstract: 本申请涉及一种Spark‑Streaming中间数据分区方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取Spark‑Streaming map任务输出的中间数据中的多个元素,基于蓄水池抽样算法,对多个元素进行抽样处理,得到抽样处理后的元素集群;通过时间序列预测方法对元素集群中元素对应的频率权重进行更新,对更新后的元素集群中各元素按照预设元素顺序进行排序;基于排序后的元素集群,通过动态规划方法求解数据分区对应的边界元素;根据边界元素对更新后的元素集群中的元素进行分区,以使分区处理后最大分区内的各个元素对应的频率权重之和最小。
-
公开(公告)号:CN108776698B
公开(公告)日:2020-09-01
申请号:CN201810584637.8
申请日:2018-06-08
Applicant: 湖南大学
IPC: G06F16/22
Abstract: 本发明公开了一种基于Spark的抗偏斜的数据分片方法,包括:步骤A:获取预估的中间数据的键簇分布以及Spark应用类型,再基于获取的键簇分布生成与Spark应用类型相匹配的分片策略;键簇为键相同的键值对集合,分片策略包括分别与无需排序、需排序的应用类型相对应的基于键簇重分配的哈希算法策略和基于键簇分割的范围分片算法策略;步骤B:利用生成的分片策略计算出Map输出数据中每个键值对的reduce索引号,再基于reduce索引号的大小顺序将键值对依次写入中间数据文件中。通过上述方法解决了Spark本身的抗偏斜机制问题,解决现有的Hash方法和Range方法无法处理分片偏斜的问题。
-
公开(公告)号:CN105653725A
公开(公告)日:2016-06-08
申请号:CN201610043971.3
申请日:2016-01-22
Applicant: 湖南大学
CPC classification number: G06F16/2282 , G06F16/1805 , G06F16/212 , G06F16/24575 , G06F16/285 , G06F21/6227
Abstract: 本发明公开了一种针对具有强制访问控制策略的改进了的MYSQL安全数据库的系统访问日志进行处理和分析,对系统运行过程中发生的漏洞和危险事件进行人工标注,提取特征值,定义特征模版,并通过设置不同的模型参数来调整和验证CRFs-BLP模型的正确性和合理性,然后通过标注结果分析与挖掘出系统现有安全策略规则设置上的缺陷,进而修正用户的相关访问权限,以增强数据库系统的安全感知和自我修复能力。本发明提出的强制访问控制策略以达到B1级别安全;其F值达到了93%以上,具有一定的实际意义。
-
公开(公告)号:CN110263059A
公开(公告)日:2019-09-20
申请号:CN201910438036.0
申请日:2019-05-24
Applicant: 湖南大学
IPC: G06F16/2455
Abstract: 本申请涉及一种Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取Spark-Streaming map任务输出的中间数据中的多个元素,基于蓄水池抽样算法,对多个元素进行抽样处理,得到抽样处理后的元素集群;通过时间序列预测方法对元素集群中元素对应的频率权重进行更新,对更新后的元素集群中各元素按照预设元素顺序进行排序;基于排序后的元素集群,通过动态规划方法求解数据分区对应的边界元素;根据边界元素对更新后的元素集群中的元素进行分区,以使分区处理后最大分区内的各个元素对应的频率权重之和最小。
-
公开(公告)号:CN109739897A
公开(公告)日:2019-05-10
申请号:CN201811551301.8
申请日:2018-12-18
Applicant: 湖南大学
IPC: G06F16/2458
Abstract: 本发明公开了一种基于Spark框架的增量式频繁项集挖掘方法,首先实现一种基于Spark的自适应并行Apriori算法,使用自适应算法来寻找具有更高精度和效率的频繁模式,可以有效解决传统Apriori算法在面对大规模数据时处理能力不足的问题。接着,在并行Apriori算法的基础上实现增量式Apriori算法,能够增量处理动态数据集,大幅减少参与计算的数据量,有效解决Apriori频繁项集挖掘方法的时效性问题。
-
公开(公告)号:CN108804224A
公开(公告)日:2018-11-13
申请号:CN201810493605.7
申请日:2018-05-22
Applicant: 湖南大学
CPC classification number: G06F9/5038 , G06F8/35
Abstract: 本发明公开了一种基于Spark框架的中间数据权重设置方法,采用对RDD分片中的键值对进行采样,并通过采样数据估算出中间数据的分布情况,并根据该分布情况为中间数据设置权重值,从而使得分片更加均衡,总体执行更加均衡,提高执行效率。
-
-
-
-
-
-
-