-
公开(公告)号:CN112711607A
公开(公告)日:2021-04-27
申请号:CN202011605240.6
申请日:2020-12-30
Applicant: 湖南大学 , 湖南匡安网络技术有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F16/2458
Abstract: 本发明公开了一种基于Flink框架的实时增量式频繁项集挖掘方法,包括:(1)对实时增量数据集db进行频繁项集挖掘,得到频繁项集集合f;(2)获取原始数据集DB的频繁项集集合F;(3)获取频繁项集集合F和频繁项集集合f二者之间的频繁项集交集F∩f、以及频繁项集差集f‑F和F‑f,以及每个集合中各个项集的出现次数;(4)获取频繁项集差集f‑F和F‑f中出现次数大于等于全局数据集中最小出现次数的项集,将其和频繁项集交集F∩f中的所有项集进行合并,以得到全局频繁项集集合。本发明能解决现有技术中需要多次扫描全局数据集而导致的挖掘方法效率低下的技术问题。
-
公开(公告)号:CN112612613A
公开(公告)日:2021-04-06
申请号:CN202011574923.X
申请日:2020-12-28
Applicant: 湖南大学
Abstract: 本发明公开了一种虚拟分布式异构环境下实现多GPU调度的方法,其根据OpenStack创建的虚拟环境下的GPU集群,将GPU本地任务划分为更细粒度的GPU本地子任务,然后根据数据本地性以及从节点上所有GPU的流状态和内存资源状态将GPU本地子任务调度到指定GPU上执行,并对超过GPU硬件工作队列数量的CUDA流进一步调整主机调度任务的顺序消除“虚假依赖”,以及对机器学习/深度学习每次迭代产生的中间数据进一步处理来提高GPU内存利用率从而充分平衡各个GPU上的工作负载,降低OpenStack创建的虚拟环境下GPU应用程序的执行时间。本发明能解决现有分布式异构OpenStack处理框架创建的多GPU环境中存在的吞吐量低、无法有效利用多个GPU、以及由于缺乏有效GPU负载均衡策略导致时间开销大的技术问题。
-
公开(公告)号:CN112749253B
公开(公告)日:2022-04-05
申请号:CN202011574822.2
申请日:2020-12-28
Applicant: 湖南大学
Abstract: 本发明公开了一种基于文本关系图的多文本摘要生成方法,其包括三个阶段:第一个阶段是根据所有输入文本,构建文本之间的关系图,并对文本进行特征提取;第二个阶段是利用第一阶段生成的文本关系图数据和文本特征,结合图神经网络进行高阶特征提取。第三个阶段是对前两个阶段编码的文本特征进行解码,生成摘要。在第二个阶段中,是将构建的文档关系图和经过编码器编码的文档表征作为图卷积神经网络的输入,进行前向传播,提取更高阶的文本特征,使得图中每个文档节点都可以获得领域节点信息,丰富了文档表征。本发明在多个文档输入时可以有效捕捉其相互间关系,克服传统方法不能充分利用文本之间关系的缺陷。
-
公开(公告)号:CN112783644B
公开(公告)日:2023-06-23
申请号:CN202011629933.9
申请日:2020-12-31
Applicant: 湖南大学
IPC: G06F9/50 , G06F16/2455
Abstract: 本发明公开了一种基于高频键值计数的分布式倾斜流处理方法和系统,其基本思路在于,使用计数式布隆过滤器对数据流中每个数据项进行计数,根据频数将该数据项分别识别为高频键、潜在高频键和低频键,进而得到不同数据项的分布,对高频键采用添加随机后缀再分组聚合的策略分配下游实例,对非高频键采用键值分组策略分配下游实例,从而实现不同下游实例间的负载均衡,提高系统性能。本发明能解决倾斜流处理方法中的随机分组下游实例的内存开销极大和键值分组下游实例间负载不均衡的技术问题。
-
公开(公告)号:CN112612613B
公开(公告)日:2023-06-23
申请号:CN202011574923.X
申请日:2020-12-28
Applicant: 湖南大学
Abstract: 本发明公开了一种虚拟分布式异构环境下实现多GPU调度的方法,其根据OpenStack创建的虚拟环境下的GPU集群,将GPU本地任务划分为更细粒度的GPU本地子任务,然后根据数据本地性以及从节点上所有GPU的流状态和内存资源状态将GPU本地子任务调度到指定GPU上执行,并对超过GPU硬件工作队列数量的CUDA流进一步调整主机调度任务的顺序消除“虚假依赖”,以及对机器学习/深度学习每次迭代产生的中间数据进一步处理来提高GPU内存利用率从而充分平衡各个GPU上的工作负载,降低OpenStack创建的虚拟环境下GPU应用程序的执行时间。本发明能解决现有分布式异构OpenStack处理框架创建的多GPU环境中存在的吞吐量低、无法有效利用多个GPU、以及由于缺乏有效GPU负载均衡策略导致时间开销大的技术问题。
-
公开(公告)号:CN112783644A
公开(公告)日:2021-05-11
申请号:CN202011629933.9
申请日:2020-12-31
Applicant: 湖南大学
IPC: G06F9/50 , G06F16/2455
Abstract: 本发明公开了一种基于高频键值计数的分布式倾斜流处理方法和系统,其基本思路在于,使用计数式布隆过滤器对数据流中每个数据项进行计数,根据频数将该数据项分别识别为高频键、潜在高频键和低频键,进而得到不同数据项的分布,对高频键采用添加随机后缀再分组聚合的策略分配下游实例,对非高频键采用键值分组策略分配下游实例,从而实现不同下游实例间的负载均衡,提高系统性能。本发明能解决倾斜流处理方法中的随机分组下游实例的内存开销极大和键值分组下游实例间负载不均衡的技术问题。
-
公开(公告)号:CN112749253A
公开(公告)日:2021-05-04
申请号:CN202011574822.2
申请日:2020-12-28
Applicant: 湖南大学
Abstract: 本发明公开了一种基于文本关系图的多文本摘要生成方法,其包括三个阶段:第一个阶段是根据所有输入文本,构建文本之间的关系图,并对文本进行特征提取;第二个阶段是利用第一阶段生成的文本关系图数据和文本特征,结合图神经网络进行高阶特征提取。第三个阶段是对前两个阶段编码的文本特征进行解码,生成摘要。在第二个阶段中,是将构建的文档关系图和经过编码器编码的文档表征作为图卷积神经网络的输入,进行前向传播,提取更高阶的文本特征,使得图中每个文档节点都可以获得领域节点信息,丰富了文档表征。本发明在多个文档输入时可以有效捕捉其相互间关系,克服传统方法不能充分利用文本之间关系的缺陷。
-
-
-
-
-
-