基于键值分布的跨数据中心大数据处理

    公开(公告)号:CN105589752B

    公开(公告)日:2019-10-15

    申请号:CN201610100798.6

    申请日:2016-02-24

    Abstract: 本发明提出了一种基于键值分布的跨数据中心(DC)大数据处理系统和方法,首先基于G‑Hadoop和G‑MR提出了一种新的架构,新增了一个用于收集DC相关信息以及key的分布信息的ResourceManager模块,该系统能对每个DC的输出进行抽样,从而得到近似的key分布并估算每个Reducer分配到的数据量,存储到ResourceManager模块;然后利用ResourceManager模块中存储的信息,本发明提出的二层分组遗传算法TLGGA,为每个reducer寻找目标DC。其中,TLGGA中初始种群的生成分别针对三个目标,即电价,物力资源和传输代价;TLGGA采用了局部优化的技巧,加快了算法的收敛。

    大数据向云端迁移时的数据中心的选择方法

    公开(公告)号:CN105739929B

    公开(公告)日:2019-01-11

    申请号:CN201610067866.3

    申请日:2016-01-29

    Abstract: 本发明提出了一种大数据向云端迁移时的数据中心的选择方法,首先,考虑到因用户偏好和法律限制等因素导致DC不可用情况,进行了非完全图建模;采用激活级别的方式来描述用户的数据产生量;定义了公平数据放置FDP、优选数据放置PDP、传输成本最小化数据放置TCMDP和成本最小化数据放置CMDP等四种准则;基于上述准则进行DC的选择。本发明提出的方法针对BD向云端移动时的需求,从用户角度研究了移动机制,可以缩短数据接入时延,降低数据成本。本发明的方法可以反映DC的可用性以及用户的偏好。本发明的方法可以利用网络自动进行低成本,低延迟的数据迁移,避免采用硬件方式,有利于自动化管理的实施。

    基于键值分布的跨数据中心大数据处理

    公开(公告)号:CN105589752A

    公开(公告)日:2016-05-18

    申请号:CN201610100798.6

    申请日:2016-02-24

    Abstract: 本发明提出了一种基于键值分布的跨数据中心(DC)大数据处理系统和方法,首先基于G-Hadoop和G-MR提出了一种新的架构,新增了一个用于收集DC相关信息以及key的分布信息的ResourceManager模块,该系统能对每个DC的输出进行抽样,从而得到近似的key分布并估算每个Reducer分配到的数据量,存储到ResourceManager模块;然后利用ResourceManager模块中存储的信息,本发明提出的二层分组遗传算法TLGGA,为每个reducer寻找目标DC。其中,TLGGA中初始种群的生成分别针对三个目标,即电价,物力资源和传输代价;TLGGA采用了局部优化的技巧,加快了算法的收敛。

    分布式云中基于聚类的时延带宽极小化虚拟机部署方法

    公开(公告)号:CN105677447B

    公开(公告)日:2019-01-04

    申请号:CN201610067867.8

    申请日:2016-01-29

    Abstract: 本发明提出了一种分布式云计算中基于聚类的时延带宽极小化虚拟机部署方法,先选择出目标DC,保证DC之间的最长通信距离尽可能的小;然后再根据VM的通信量,对VM进行分组,保证DC间的通信带宽消耗尽可能的少。其中,DC选择采用密度聚类算法,进行非优解的剪枝,从而加快了算法速度;VM分组采用了半通信模型,实现了成批VM的分组,使得算法的速度提升近3倍。本发明的方法考虑到了分布式云计算中DC的容量相对于集中式云计算较小的特点,同时可以兼顾特定的可靠性要求,比如要求每个DC只能部署一定数量的VM,在分布式云计算中部署一组VM,进行服务质量和成本优化,实现分布式云计算中低成本,低时延,高可靠的虚拟机部署。

    大数据向云端迁移时的数据中心的选择方法

    公开(公告)号:CN105739929A

    公开(公告)日:2016-07-06

    申请号:CN201610067866.3

    申请日:2016-01-29

    CPC classification number: G06F3/0655

    Abstract: 本发明提出了一种大数据向云端迁移时的数据中心的选择方法,首先,考虑到因用户偏好和法律限制等因素导致DC不可用情况,进行了非完全图建模;采用激活级别的方式来描述用户的数据产生量;定义了公平数据放置FDP、优选数据放置PDP、传输成本最小化数据放置TCMDP和成本最小化数据放置CMDP等四种准则;基于上述准则进行DC的选择。本发明提出的方法针对BD向云端移动时的需求,从用户角度研究了移动机制,可以缩短数据接入时延,降低数据成本。本发明的方法可以反映DC的可用性以及用户的偏好。本发明的方法可以利用网络自动进行低成本,低延迟的数据迁移,避免采用硬件方式,有利于自动化管理的实施。

    分布式云中基于聚类的时延带宽极小化虚拟机部署方法

    公开(公告)号:CN105677447A

    公开(公告)日:2016-06-15

    申请号:CN201610067867.8

    申请日:2016-01-29

    CPC classification number: G06F9/45558 G06F2009/4557 H04L67/10

    Abstract: 本发明提出了一种分布式云计算中基于聚类的时延带宽极小化虚拟机部署方法,先选择出目标DC,保证DC之间的最长通信距离尽可能的小;然后再根据VM的通信量,对VM进行分组,保证DC间的通信带宽消耗尽可能的少。其中,DC选择采用密度聚类算法,进行非优解的剪枝,从而加快了算法速度;VM分组采用了半通信模型,实现了成批VM的分组,使得算法的速度提升近3倍。本发明的方法考虑到了分布式云计算中DC的容量相对于集中式云计算较小的特点,同时可以兼顾特定的可靠性要求,比如要求每个DC只能部署一定数量的VM,在分布式云计算中部署一组VM,进行服务质量和成本优化,实现分布式云计算中低成本,低时延,高可靠的虚拟机部署。

Patent Agency Ranking