一种基于Spark平台的并行序列模式挖掘方法

    公开(公告)号:CN107145548A

    公开(公告)日:2017-09-08

    申请号:CN201710284017.8

    申请日:2017-04-26

    申请人: 武汉大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于Spark平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的序列数据库分解策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始GSP算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。

    一种面向软件缺陷预测的混合特征选择方法

    公开(公告)号:CN107391365B

    公开(公告)日:2020-10-13

    申请号:CN201710547660.5

    申请日:2017-07-06

    申请人: 武汉大学

    IPC分类号: G06F11/36

    摘要: 本发明涉及一种面向软件缺陷预测的混合特征选择方法,首先从原始特征集中选择最相关的m个特征,丢弃掉不相关特征;随后根据特征与特征之间的关联性,对这m个特征进行聚类,将相互之间冗余度高的特征聚类到同一个簇中。最后利用包裹式特征选择的思想,从当前特征子集中删除每个簇中一个最不相关的特征,形成新的特征子集,然后用准确率这个评价函数对该特征子集进行评价,本发明得到的最终特征子集既排除了不相关特征,又降低了特征之间的冗余度。同时,从不同簇里删除一个最不相关的特征形成新的特征子集,可以有效减少被搜索的特征子集的数量。

    一种基于异构信息网络的电影推荐方法

    公开(公告)号:CN106709037B

    公开(公告)日:2019-11-08

    申请号:CN201611248620.2

    申请日:2016-12-29

    申请人: 武汉大学

    摘要: 一种基于异构信息网络的电影推荐方法,包括链接建模,以用户、电影、电影类型三种类型的对象为结点构建用户‑电影异构网络,以电影类型结点为中心,对异构网络进行社团划分,筛选出符合要求的社团,提高其运算速度和效率,利用异构网络中的元路径,计算目标用户与社团中的每个用户之间的影响力,计算目标用户与电影类型的喜爱程度,特征建模,分析目标用户的每一个特征被划分到每种电影类型的概率,综合计算目标用户对每个电影类型的喜爱程度,对链接建模和特征建模的结果进行加权求和,分析目标用户对每一种电影类型的喜爱程度,按照目标用户对每一种电影类型的喜爱程度,选择电影类型,推荐评分高的电影。

    一种基于Spark云计算平台的并行序列模式挖掘方法

    公开(公告)号:CN107346331A

    公开(公告)日:2017-11-14

    申请号:CN201710482965.2

    申请日:2017-06-22

    申请人: 武汉大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于Spark云计算平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的投影序列数据库切分策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始PrefixSpan算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。本发明的技术方案具有简单、快速的特点,能够较好地提高序列模式挖掘的效率。

    一种基于半监督聚类数据筛选的跨项目缺陷预测方法

    公开(公告)号:CN107133176A

    公开(公告)日:2017-09-05

    申请号:CN201710322848.X

    申请日:2017-05-09

    申请人: 武汉大学

    IPC分类号: G06F11/36 G06K9/62

    摘要: 本发明涉及一种基于半监督聚类数据筛选的跨项目缺陷预测方法,该方法利用半监督聚类算法对软件模块数据进行聚类发现子簇;随后,收集所有生成的簇中与本项目历史软件模块类标号相同的所有的跨项目历史软件模块即为筛选后的跨项目软件模块数据;最后基于筛选后的跨项目软件模块数据和所有的本项目历史软件模块数据利用朴素贝叶斯分类算法建立跨项目缺陷预测模型,预测待预测的本项目软件模块数据。本发明能够使跨项目软件预测模型避免受到不相关跨项目软件模块数据的影响,充分利用跨项目历史软件模块信息和本项目历史软件模块信息,增强了跨项目软件缺陷预测模型的性能。

    一种基于贝叶斯网络推理的软件错误分层诊断方法

    公开(公告)号:CN107025169A

    公开(公告)日:2017-08-08

    申请号:CN201710048225.8

    申请日:2017-01-20

    申请人: 武汉大学

    IPC分类号: G06F11/36

    CPC分类号: G06F11/3688

    摘要: 本发明涉及一种基于贝叶斯网络推理的软件错误分层诊断方法,包括构建函数层,MIC理论的应用,提高统计依赖的准确度,改进并应用Laplace平滑策略,解决测试数据稀松性。进行测试预言,判断某测试用例对整个程序是否为失败测试用例。进行错误定位,计算函数的可疑度并排序,构建对应函数的语句层BNPDG,按可疑度排序对函数进行逐一检查,在函数的语句层BNPDG上进行测试预言,找到bug函数,在其语句层BNPDG上进行错误定位,得到函数中所有语句的可疑度排序。按照可疑度排序对语句进行逐一检查,直到找到bug语句。本发明减少了错误诊断的空间消耗和时间消耗。解决了RankCP等技术中计算的局部可疑度存在的问题。

    一种基于特征选择和集成学习的软件缺陷个数预测方法

    公开(公告)号:CN107247666B

    公开(公告)日:2020-03-10

    申请号:CN201710375644.2

    申请日:2017-05-24

    申请人: 武汉大学

    IPC分类号: G06F11/36

    摘要: 本发明属于软件缺陷预测技术领域,特别是涉及一种基于特征选择和集成学习的软件缺陷个数预测方法,针对软件缺陷个数的预测中不相关的模块特征损害了缺陷预测模型性能,回归模型均具有不同的预测能力,无法选择最佳回归算法等问题,首先利用基于包裹式的特征选择方法过滤不相关和冗余的特征,然后采用六种不同的回归算法:线性回归、岭回归、决策树回归、梯度boosting回归、最近邻回归和多层感知器回归,采用集成学习技术,根据特征筛选后的数据实例,构建综合回归模型。相比于单个的回归模型,本发明提高了软件缺陷个数预测的准确性。

    一种基于Spark云计算平台的并行序列模式挖掘方法

    公开(公告)号:CN107346331B

    公开(公告)日:2019-08-20

    申请号:CN201710482965.2

    申请日:2017-06-22

    申请人: 武汉大学

    IPC分类号: G06F16/20 G06F16/23

    摘要: 本发明公开了一种基于Spark云计算平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的投影序列数据库切分策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始PrefixSpan算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。本发明的技术方案具有简单、快速的特点,能够较好地提高序列模式挖掘的效率。

    一种基于数据欠采样和集成学习的软件缺陷数目预测方法

    公开(公告)号:CN107391452A

    公开(公告)日:2017-11-24

    申请号:CN201710548391.4

    申请日:2017-07-06

    申请人: 武汉大学

    IPC分类号: G06F17/18

    摘要: 本发明针对软件缺陷数据集中数据极度不平衡会降低软件缺陷数目预测模型的性能的问题,提出了一种基于数据欠采样和集成学习的软件缺陷数目预测方法。本发明设计了合理的不平衡数据处理策略,首先利用随机欠采样技术通过删除缺陷数据集中缺陷数目为零的软件模块得到相对平衡的新数据集,然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型,最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。本发明的技术方案既能够解决缺陷数据集中数据不平衡的问题,又能够结合多个弱的预测模型来提高软件缺陷数目预测模型的性能。

    一种面向软件缺陷预测的混合特征选择方法

    公开(公告)号:CN107391365A

    公开(公告)日:2017-11-24

    申请号:CN201710547660.5

    申请日:2017-07-06

    申请人: 武汉大学

    IPC分类号: G06F11/36

    摘要: 本发明涉及一种面向软件缺陷预测的混合特征选择方法,首先从原始特征集中选择最相关的m个特征,丢弃掉不相关特征;随后根据特征与特征之间的关联性,对这m个特征进行聚类,将相互之间冗余度高的特征聚类到同一个簇中。最后利用包裹式特征选择的思想,从当前特征子集中删除每个簇中一个最不相关的特征,形成新的特征子集,然后用准确率这个评价函数对该特征子集进行评价,本发明得到的最终特征子集既排除了不相关特征,又降低了特征之间的冗余度。同时,从不同簇里删除一个最不相关的特征形成新的特征子集,可以有效减少被搜索的特征子集的数量。