-
公开(公告)号:CN110299187B
公开(公告)日:2022-03-22
申请号:CN201910597641.2
申请日:2019-07-04
Applicant: 南京邮电大学
IPC: G16B50/50
Abstract: 本发明公开了一种基于Hadoop的并行化基因数据压缩方法,事先从待压缩基因序列中选取并通过k‑mer构建Hash表编码参考序列,并将参考序列存储为索引文件。启动Hadoop集群,将配置、索引和待压缩文件传到HDFS上,配置MapReduce任务,在Map任务中读取待压缩序列的所有信息,使用Combiner与Partitioner对Map结果优化。在Reduce任务中进行待压缩序列与参考序列的匹配去重,最后将结果压缩输出。本发明使用分布式计算方式可以在读取单个基因实现并行化并提高效率,还可以实现多条基因序列的并行处理,以实现处理压缩大批量基因文件的加速。
-
公开(公告)号:CN112528087B
公开(公告)日:2023-06-20
申请号:CN202011400390.3
申请日:2020-12-01
Applicant: 南京邮电大学
IPC: G06F16/901
Abstract: 本发明公开了一种网络系统中基于大同步模型的图顶点并行重编码方法,包括:各任务将输入图的顶点Id发送给出度顶点,并统计各自的输入顶点数量写入总同步目录;各任务根据总同步目录记录的各任务输入顶点数量,顺序递增更新原顶点Id,同时建立新旧Id映射,然后根据接收消息建立各顶点的输入顶点集合,最后以新Id作为消息值,根据输入顶点集合进行反向发送;各顶点根据新旧顶点Id映射,将收到的新顶点Id汇总为新的输出边集合。本发明能够避免顶点不规则编码带来的存储资源浪费和低效计算等问题,同时不影响原图的结构关系,在图计算技术领域具有广泛的实用价值和应用前景。
-
公开(公告)号:CN112528087A
公开(公告)日:2021-03-19
申请号:CN202011400390.3
申请日:2020-12-01
Applicant: 南京邮电大学
IPC: G06F16/901
Abstract: 本发明公开了一种网络系统中基于大同步模型的图顶点并行重编码方法,包括:各任务将输入图的顶点Id发送给出度顶点,并统计各自的输入顶点数量写入总同步目录;各任务根据总同步目录记录的各任务输入顶点数量,顺序递增更新原顶点Id,同时建立新旧Id映射,然后根据接收消息建立各顶点的输入顶点集合,最后以新Id作为消息值,根据输入顶点集合进行反向发送;各顶点根据新旧顶点Id映射,将收到的新顶点Id汇总为新的输出边集合。本发明能够避免顶点不规则编码带来的存储资源浪费和低效计算等问题,同时不影响原图的结构关系,在图计算技术领域具有广泛的实用价值和应用前景。
-
公开(公告)号:CN110299187A
公开(公告)日:2019-10-01
申请号:CN201910597641.2
申请日:2019-07-04
Applicant: 南京邮电大学
IPC: G16B50/50
Abstract: 本发明公开了一种基于Hadoop的并行化基因数据压缩方法,事先从待压缩基因序列中选取并通过k-mer构建Hash表编码参考序列,并将参考序列存储为索引文件。启动Hadoop集群,将配置、索引和待压缩文件传到HDFS上,配置MapReduce任务,在Map任务中读取待压缩序列的所有信息,使用Combiner与Partitioner对Map结果优化。在Reduce任务中进行待压缩序列与参考序列的匹配去重,最后将结果压缩输出。本发明使用分布式计算方式可以在读取单个基因实现并行化并提高效率,还可以实现多条基因序列的并行处理,以实现处理压缩大批量基因文件的加速。
-
公开(公告)号:CN110162591A
公开(公告)日:2019-08-23
申请号:CN201910431436.9
申请日:2019-05-22
Applicant: 南京邮电大学
Abstract: 本发明公开了一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。
-
公开(公告)号:CN109886200A
公开(公告)日:2019-06-14
申请号:CN201910132608.2
申请日:2019-02-22
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于生成式对抗网络的无人驾驶车道线检测方法,包括车道线图片的生成网络、判别网络和检测算法三个部分;首选获取生成网络、判别网络的训练数据,然后将低分辨率图片输入生成网络生成超分辨率图片,将高分辨率图片和超分辨率图片输入判别网络进行清晰度判断,并根据判断结果捕捉超分辨率图片和高分辨率图片的数据分布,生成网络和判别网络基于数据分布进行对抗训练,直至达到纳什均衡,得到最优化的生成网络,将最优化的生成网络生成的超分辨率图片输入检测算法进行车道线识别。本发明采用生成式对抗网络进行无人驾驶车道线检测,可以有效提高车道线检测的精确度。
-
公开(公告)号:CN110162591B
公开(公告)日:2022-08-19
申请号:CN201910431436.9
申请日:2019-05-22
Applicant: 南京邮电大学
IPC: G06F16/31 , G06F16/33 , G06F40/295
Abstract: 本发明公开了一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。
-
公开(公告)号:CN110287638A
公开(公告)日:2019-09-27
申请号:CN201910597647.X
申请日:2019-07-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于kalman-RNN神经网络的飞锯寿命预测方法,首先,采集锯片磨损数据集,这为以后进行对比分析做准备。然后,对被切材料、锯片直径、锯切速度、锯切深度、锯切宽度、每齿进刀量、齿数、齿距等工艺参数进行分析,最终选择锯片直径、锯切速度、锯切深度、锯切宽度、每齿进刀量、齿数、齿距作为神经网络的输入;神经网络对应时刻输出为预测的寿命,即磨损百分比,并结合Kalman滤波技术将其和对应时刻的实际测量值进行融合、比对、更新神经网络对应时刻的输出,依此提高该算法寿命预测的精度。
-
公开(公告)号:CN109979537A
公开(公告)日:2019-07-05
申请号:CN201910197033.2
申请日:2019-03-15
Applicant: 南京邮电大学 , 江苏航天龙梦信息技术有限公司
Abstract: 本发明提出一种面向多条序列的基因序列数据压缩方法,主要用于解决基因数据量过大,减小基因数据存储和传输成本问题。首先从待压缩基因序列中选取参考序列,其次,将非参考序列和参考序列采用不同的压缩方式进行压缩。对于非参考序列,通过与参考序列异或,然后进行矩阵划分和矩阵编码,最终将基因序列编码成二元组形式进行存储;对于参考序列,采用k‑mer算法进行单独压缩。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
-
公开(公告)号:CN110147552B
公开(公告)日:2022-12-06
申请号:CN201910431440.5
申请日:2019-05-22
Applicant: 南京邮电大学
IPC: G06F16/35 , G06F40/211 , G06F40/289 , G06F40/30 , G06Q10/06 , G06Q50/20
Abstract: 本发明公开了一种基于自然语言处理的教育资源质量评价挖掘方法及系统,首先从海量教育评论数据中使用自然语言处理技术挖掘用户评价观点,以 二元组存储。其次,以 为指标结点建立。然后基于教育资源语料库通过神经网络对词向量进行训练,建立词到向量的模型。再对评价对象进行聚类,再按照floyd算法选出中心向量。接着对评价词进行聚类,生成资源评价指标树,选出的中心向量作为评价指标树的结点,最后对评价词进行情感分析并打分输出。解决了基于众筹众创的数字教育评价数据量过大,人工评价方法成本高、难度大、主观性高等问题。
-
-
-
-
-
-
-
-
-