一种网络系统中基于大同步模型的图顶点并行重编码方法

    公开(公告)号:CN112528087B

    公开(公告)日:2023-06-20

    申请号:CN202011400390.3

    申请日:2020-12-01

    Abstract: 本发明公开了一种网络系统中基于大同步模型的图顶点并行重编码方法,包括:各任务将输入图的顶点Id发送给出度顶点,并统计各自的输入顶点数量写入总同步目录;各任务根据总同步目录记录的各任务输入顶点数量,顺序递增更新原顶点Id,同时建立新旧Id映射,然后根据接收消息建立各顶点的输入顶点集合,最后以新Id作为消息值,根据输入顶点集合进行反向发送;各顶点根据新旧顶点Id映射,将收到的新顶点Id汇总为新的输出边集合。本发明能够避免顶点不规则编码带来的存储资源浪费和低效计算等问题,同时不影响原图的结构关系,在图计算技术领域具有广泛的实用价值和应用前景。

    一种网络系统中基于大同步模型的图顶点并行重编码方法

    公开(公告)号:CN112528087A

    公开(公告)日:2021-03-19

    申请号:CN202011400390.3

    申请日:2020-12-01

    Abstract: 本发明公开了一种网络系统中基于大同步模型的图顶点并行重编码方法,包括:各任务将输入图的顶点Id发送给出度顶点,并统计各自的输入顶点数量写入总同步目录;各任务根据总同步目录记录的各任务输入顶点数量,顺序递增更新原顶点Id,同时建立新旧Id映射,然后根据接收消息建立各顶点的输入顶点集合,最后以新Id作为消息值,根据输入顶点集合进行反向发送;各顶点根据新旧顶点Id映射,将收到的新顶点Id汇总为新的输出边集合。本发明能够避免顶点不规则编码带来的存储资源浪费和低效计算等问题,同时不影响原图的结构关系,在图计算技术领域具有广泛的实用价值和应用前景。

    一种基于Hadoop的并行化基因数据压缩方法

    公开(公告)号:CN110299187A

    公开(公告)日:2019-10-01

    申请号:CN201910597641.2

    申请日:2019-07-04

    Abstract: 本发明公开了一种基于Hadoop的并行化基因数据压缩方法,事先从待压缩基因序列中选取并通过k-mer构建Hash表编码参考序列,并将参考序列存储为索引文件。启动Hadoop集群,将配置、索引和待压缩文件传到HDFS上,配置MapReduce任务,在Map任务中读取待压缩序列的所有信息,使用Combiner与Partitioner对Map结果优化。在Reduce任务中进行待压缩序列与参考序列的匹配去重,最后将结果压缩输出。本发明使用分布式计算方式可以在读取单个基因实现并行化并提高效率,还可以实现多条基因序列的并行处理,以实现处理压缩大批量基因文件的加速。

    一种面向数字教育资源的实体对齐方法及系统

    公开(公告)号:CN110162591A

    公开(公告)日:2019-08-23

    申请号:CN201910431436.9

    申请日:2019-05-22

    Abstract: 本发明公开了一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。

Patent Agency Ranking