一种基于混合内存的任务与数据调度方法和装置

    公开(公告)号:CN105760220A

    公开(公告)日:2016-07-13

    申请号:CN201610066773.9

    申请日:2016-01-29

    Applicant: 湖南大学

    CPC classification number: Y02D10/24 G06F9/4893 G06F9/485

    Abstract: 本发明涉及数据处理领域,提供一种基于混合内存的任务与数据调度方法和装置,所述方法包括:步骤1,根据任务与数据的DAG图,获得任务的输入数据与输出数据;步骤2,对所述输入数据与输出数据进行数据分类,得到共享数据源与独立数据源;步骤3,根据任务对处理器和内存的访问时间,获得执行任务最快的处理器,将任务分配到该处理器上,完成初始化调度;步骤4,根据数据分类和初始化调度,对输入数据进行调度;步骤5,根据处理器处理任务和内存访问数据的能耗,对任务所在的处理器和数据所在的内存进行位置调整。本发明充分考虑了数据对任务调度的影响,提高了数据识别的能力,降低了能耗。

    一种基于多层周期指数递阶的时序数据预测方法

    公开(公告)号:CN105740431A

    公开(公告)日:2016-07-06

    申请号:CN201610068317.8

    申请日:2016-01-29

    Applicant: 湖南大学

    CPC classification number: G06F16/2471

    Abstract: 本发明提供了一种基于多层周期指数递阶的时序数据预测方法,包括步骤:利用傅里叶级数变换技术分析实时产生的时序数据的周期性,生成多层周期模型;在多层周期模型的基础上,以部分历史数据作为训练数据,进行周期数据的预测权值计算,根据预测权值进行数据预测。本发明通过基于傅里叶级数变换的多层周期划分模型,将历史数据进行抽象,形成数据视图,然后进行多层周期划分,在有效减少数据规模同时又能保持数据特征不变性,有效降低方法的计算复杂性,提高大规模时序数据的预测准确性和运算性能,使得数据预测的速度和精确度能够同时满足要求;还结合Spark云计算技术,实现了时序数据预测并行方法,有效提高大规模时序数据预测的运算性能。

    一种基于Spark平台的高效率文本分类方法

    公开(公告)号:CN105740424A

    公开(公告)日:2016-07-06

    申请号:CN201610066429.X

    申请日:2016-01-29

    Applicant: 湖南大学

    CPC classification number: G06F16/35

    Abstract: 本发明提供了一种基于Spark平台的高效率文本分类方法,该方法包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据,将数据转换为RDD并将其存储在内存;将所有任务分为不同的stage,然后运行各个任务;对RDD进行预处理;进行训练;测试分类模型。本发明弥补了朴素贝叶斯模型的缺点与不足,还提高了处理的速度;还对数据挖掘和机器学习起到了有效地促进作用:促进了传统的数据挖掘算法向并行的数据挖掘算法转变;对贝叶斯算的改进提高了分类的精度;促进了以Spark平台为基础的算法的改进;最后提高了集群资源利用率。

    一种基于混合内存的任务与数据调度方法和装置

    公开(公告)号:CN105760220B

    公开(公告)日:2019-05-17

    申请号:CN201610066773.9

    申请日:2016-01-29

    Applicant: 湖南大学

    Abstract: 本发明涉及数据处理领域,提供一种基于混合内存的任务与数据调度方法和装置,所述方法包括:步骤1,根据任务与数据的DAG图,获得任务的输入数据与输出数据;步骤2,对所述输入数据与输出数据进行数据分类,得到共享数据源与独立数据源;步骤3,根据任务对处理器和内存的访问时间,获得执行任务最快的处理器,将任务分配到该处理器上,完成初始化调度;步骤4,根据数据分类和初始化调度,对输入数据进行调度;步骤5,根据处理器处理任务和内存访问数据的能耗,对任务所在的处理器和数据所在的内存进行位置调整。本发明充分考虑了数据对任务调度的影响,提高了数据识别的能力,降低了能耗。

Patent Agency Ranking