一种基于索引定位的图计算系统的外存访问方法

    公开(公告)号:CN109522428A

    公开(公告)日:2019-03-26

    申请号:CN201811082365.8

    申请日:2018-09-17

    Abstract: 本发明公开了一种基于索引定位的图计算系统的外存访问方法,包括:将完整的图数据分割成多个子图;对各个子图的边分别按照源顶点编号和目标顶点编号进行排序;将排序后的各个子图写入外存文件中,并分别为源顶点编号和目标顶点编号建立索引;从索引定位的载入方式和访问完整数据的载入方式中选择最优载入方式;以最优载入方式,将外存中各个子图载入内存。本发明对外存数据结构重新设计,改进数据加载方式,使系统能够在载入之前分析外存中的有效数据,显著减少I/O数据量和随机访问次数;分析访问完整数据方式与索引定位方式的时间开销,动态判断系统的最优数据载入方式,降低数据加载的时间开销。

    基于点信息同步的动态流式图并行抽样方法

    公开(公告)号:CN106100921B

    公开(公告)日:2020-06-02

    申请号:CN201610406969.8

    申请日:2016-06-08

    Abstract: 本发明提供一种基于点信息同步的动态流式图并行抽样方法,具体为:S1.流式边到达滑动窗口,判断窗口是否满,如果不满则执行S1,否则执行S2;S2.将滑动窗口中的边按序随机分配给多个抽样器;S3.多个抽样器对被分配的边并行处理得到抽样子图;S4.读取抽样器的点集,去除重复的点,刷新全局点集合;S5.更新全局点推导的边集;S6.调整抽样目标点集数量;S7.如果未到设定的采集抽样子图时间点,更新滑动窗口,返回S1;否则执行S8;S8.根据每个抽样器的抽样结果合成抽样子图。本发明在快速获得抽样子图的同时,保证抽样子图与原图的特性相似度高,解决了动态流式图串行抽样算法处理时间长、不能满足实时性要求的问题。

    一种基于I/O去重的多任务图处理方法及系统

    公开(公告)号:CN106095552B

    公开(公告)日:2019-06-28

    申请号:CN201610399043.0

    申请日:2016-06-07

    Abstract: 本发明公开了一种基于I/O去重的多任务图处理方法及其系统,属于计算机存储领域。该方法采用专用I/O线程通过异步方式从外存中读取图数据,并加载到内存的共享缓冲区;并行执行图处理任务,在任务执行过程中从共享缓冲区访问图数据。本发明通过提供统一访问外存图数据的方法实现了I/O重用,通过共享缓存的设计协调了并行任务的执行速度,解决了当前外存模式图处理系统在处理并发多任务时,请求图数据出现I/O冲突和数据重复的问题,优化了并行任务的数据等待时间。

    一种基于I/O去重的多任务图处理方法及系统

    公开(公告)号:CN106095552A

    公开(公告)日:2016-11-09

    申请号:CN201610399043.0

    申请日:2016-06-07

    CPC classification number: G06F9/4806 G06F16/51

    Abstract: 本发明公开了一种基于I/O去重的多任务图处理方法及其系统,属于计算机存储领域。该方法采用专用I/O线程通过异步方式从外存中读取图数据,并加载到内存的共享缓冲区;并行执行图处理任务,在任务执行过程中从共享缓冲区访问图数据。本发明通过提供统一访问外存图数据的方法实现了I/O重用,通过共享缓存的设计协调了并行任务的执行速度,解决了当前外存模式图处理系统在处理并发多任务时,请求图数据出现I/O冲突和数据重复的问题,优化了并行任务的数据等待时间。

    一种基于机器学习的Hadoop参数自动调优方法及系统

    公开(公告)号:CN106202431B

    公开(公告)日:2019-06-28

    申请号:CN201610550098.7

    申请日:2016-07-13

    Abstract: 本发明属于大数据处理技术领域,涉及一种基于机器学习的Hadoop参数的自动调优方法及系统。本发明根据不同应用程序的资源消耗特征聚类分组,并针对不同组应用建立不同的性能模型,自动得到对不同类应用影响较大的不同参数,并给出定量参数建议值。系统包括离线模块和在线模块,离线模块包括Hadoop数据收集器、聚类器和性能模型构建子模块;在线模块包括作业管理器、优化器、资源消耗特征匹配器和作业探查器。本发明有效解决了现有的基于经验规律的方法对用户经验的高依赖问题和定性参数建议的限制问题;同时本发明将参数优化系统和Hadoop系统分离,降低系统耦合度,减少人工开销,避免人为误判,并且便于系统扩展与维护。

    一种基于机器学习的Hadoop参数自动调优方法及系统

    公开(公告)号:CN106202431A

    公开(公告)日:2016-12-07

    申请号:CN201610550098.7

    申请日:2016-07-13

    CPC classification number: G06F16/2471 G06F16/217 G06F16/285

    Abstract: 本发明属于大数据处理技术领域,涉及一种基于机器学习的Hadoop参数的自动调优方法及系统。本发明根据不同应用程序的资源消耗特征聚类分组,并针对不同组应用建立不同的性能模型,自动得到对不同类应用影响较大的不同参数,并给出定量参数建议值。系统包括离线模块和在线模块,离线模块包括Hadoop数据收集器、聚类器和性能模型构建子模块;在线模块包括作业管理器、优化器、资源消耗特征匹配器和作业探查器。本发明有效解决了现有的基于经验规律的方法对用户经验的高依赖问题和定性参数建议的限制问题;同时本发明将参数优化系统和Hadoop系统分离,降低系统耦合度,减少人工开销,避免人为误判,并且便于系统扩展与维护。

    一种基于BFS森林的社交网络中的知识图谱数据布局方法

    公开(公告)号:CN109271478B

    公开(公告)日:2021-07-27

    申请号:CN201811082264.0

    申请日:2018-09-17

    Abstract: 本发明公开了一种基于BFS森林的社交网络中的知识图谱数据布局方法,包括:对社交网络中的知识图谱进行一次全图的全局BFS遍历,得到全局BFS序列;将当前限长BFS子树的起始点初始化为全局BFS序列的起始序号;从起始点出发,使用限长BFS遍历社交网络中的知识图谱,直至图中所有节点都被遍历,最终得到BFS森林序列;利用所述BFS森林序列对社交网络中的知识图谱的节点进行更新,知识图谱数据布局结束。本发明使用BFS森林去遍历全图,限长BFS子树的局部性已经符合限长图遍历算法需求;以全局BFS序列作为“BFS森林”起始点选择依据,使BFS子树起始点的选择更加符合限长图遍历的需求,使多个BFS子树组成的序列满足整体顺序性,提高了算法执行效率。

    一种基于索引定位的图计算系统的外存访问方法

    公开(公告)号:CN109522428B

    公开(公告)日:2020-11-24

    申请号:CN201811082365.8

    申请日:2018-09-17

    Abstract: 本发明公开了一种基于索引定位的图计算系统的外存访问方法,包括:将完整的图数据分割成多个子图;对各个子图的边分别按照源顶点编号和目标顶点编号进行排序;将排序后的各个子图写入外存文件中,并分别为源顶点编号和目标顶点编号建立索引;从索引定位的载入方式和访问完整数据的载入方式中选择最优载入方式;以最优载入方式,将外存中各个子图载入内存。本发明对外存数据结构重新设计,改进数据加载方式,使系统能够在载入之前分析外存中的有效数据,显著减少I/O数据量和随机访问次数;分析访问完整数据方式与索引定位方式的时间开销,动态判断系统的最优数据载入方式,降低数据加载的时间开销。

Patent Agency Ranking