面向软件缺陷的领域知识图谱自动化构建方法

    公开(公告)号:CN108121829B

    公开(公告)日:2022-05-24

    申请号:CN201810047681.5

    申请日:2018-01-12

    Applicant: 扬州大学

    Abstract: 本发明涉及面向软件缺陷的领域知识图谱自动化构建方法。本发明对bug缺陷关系三元组的抽取,再对bug缺陷领域的分类,即将bug缺陷库中bug相关信息进行收集并处理bug描述信息,通过自然语言处理得到描述句子中动词短语和名词短语,再根据bug信息相关的词与词之间依存关系,得出bug关系三元组,提取bug缺陷领域特征,采用半监督分类器进行训练、学习,使得分类器自动分类之前未被标记的三元组,将所有分类过的关系三元组存放在图形数据库中,构造出面向软件缺陷的领域知识图谱。本发明克服了在bug缺陷领域无有效处理方法的缺陷。本发明从自然语言处理角度,分析bug缺陷描述,帮助软件开发者和维护者更直观、快速、准确理解bug缺陷信息及其领域知识,提高效率,实现软件缺陷领域知识图谱,建立bug之间的关联关系。

    一种基于关联规则的软件缺陷自动分类方法

    公开(公告)号:CN109376247B

    公开(公告)日:2022-05-13

    申请号:CN201811346154.0

    申请日:2018-11-13

    Applicant: 扬州大学

    Inventor: 李斌 周澄 孙小兵

    Abstract: 本发明公开了一种基于关联规则的软件缺陷自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容,并对其进行预处理;之后随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集;再根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集;然后挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵;最后利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器。本发明同时从缺陷表象和产生原因两个维度对缺陷进行细粒度的自动分类,解决了现有技术中因缺陷信息量少而无法准确原因分类的短板。

    一种面向多源数据的软件缺陷表示学习方法

    公开(公告)号:CN107832781B

    公开(公告)日:2021-09-14

    申请号:CN201710973976.0

    申请日:2017-10-18

    Applicant: 扬州大学

    Inventor: 李斌 周澄 孙小兵

    Abstract: 本发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集,从中选取训练集、测试集,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,缺陷描述由词的组合转换为共现实体对和分布实体的集合,实现软件缺陷表示,最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。

    基于源代码图表示学习的智能合约多漏洞检测方法及系统

    公开(公告)号:CN113360915A

    公开(公告)日:2021-09-07

    申请号:CN202110643307.3

    申请日:2021-06-09

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于源代码图表示学习的智能合约多漏洞检测方法及系统,该方法结合智能合约的抽象语法树和语义信息,利用函数粒度代码属性图对智能合约源代码进行表征;并根据智能合约不同类型漏洞的语法特征定义切片准则,使用程序切片技术对智能合约图表示进行降噪并结合门控图神经网络进行特征提取,基于提取的特征进行漏洞预测。本发明的优势在于:结合多种图结构表征智能合约源代码,充分保留了代码的语法、语义信息和上下文结构;利用程序切片技术去除与漏洞检测无关的噪声代码,提升了检测的准确性;基于门控图神经网络自动学习多种漏洞的特征,提高了漏洞检测的适用范围和检测效率,降低了检测成本。

    基于知识图谱的第三方库安全风险分析方法及系统

    公开(公告)号:CN113139192A

    公开(公告)日:2021-07-20

    申请号:CN202110382640.3

    申请日:2021-04-09

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于知识图谱的第三方库安全风险分析方法及系统,方法包括以下步骤:采集项目依赖配置文件,迭代获取多层第三方库lib信息及api调用关系;根据lib信息在NVD数据库中索引CVE以搜集第三方库的漏洞信息;根据CVE的相关属性获取含有漏洞的第三方库中受影响的api;将生成的第三方库及漏洞实体、关系信息文件导入知识图谱工具构建知识图谱;通过构建好的知识图谱实现第三方库安全风险分析。本发明构建了一种存储第三方库多个层级之间的调用信息及各层级之间存在精确到api级别的漏洞信息的知识图谱,可对第三方库调用链进行安全漏洞风险分析,使软件开发者全方位考虑到第三方库安全漏洞信息,从而减少安全漏洞对软件开发的隐患。

    一种基于图学习的线程安全代码识别方法

    公开(公告)号:CN113138924A

    公开(公告)日:2021-07-20

    申请号:CN202110440403.8

    申请日:2021-04-23

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于图学习的线程安全代码识别方法,属于软件测试领域;具体包括:构建得到线程安全数据集;将线程安全数据集中的类转化为可供分析的域访问图;构建以域访问图为输入、以分类标签为输出的GMN神经网络模型;采用匹配池对构建的GMN神经网络模型进行训练,得到训练好的GMN神经网络模型;将待安全识别的类对应转化成域访问图,而后输入至训练好的GMN神经网络模型,得到识别结果;本发明使用域访问图的结构,充分体现了并发程序中不同的访问关系,基于训练好的GMN神经网络模型的注意力机制进行跨图匹配,达到对线程安全代码的识别,更具普适性,通用性,且极大地提升了预测结果的准确性。

    一种基于聚类分析的软件缺陷修复模板提取方法

    公开(公告)号:CN109165155B

    公开(公告)日:2021-06-22

    申请号:CN201810637180.2

    申请日:2018-06-20

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于聚类分析的软件缺陷修复模板提取方法,属于软件维护领域,步骤如下:首先定义bug的细粒度修改模式,并识别出每个bug相关的细粒度修改模式;接着对每个bug相关的细粒度修改模式的程序元素进行捕获;之后获取每个bug的顶层修改模式多重集,然后进行层次聚类分析,获得聚类后的多个顶层修改模式多重集;之后获取每个顶层修改模式多重集对应的新的修改模式多重集;再根据程序元素之间的关系获取修改模式多重集图;然后对修改模式多重集图进行分割优化,获得修改模式聚类;最后根据修改模式聚类构建软件缺陷修复模板。本发明的方法获得的修复模板具有语义特征,其普适性和通用性更强,提高了缺陷修复的效率和精度。

    一种基于图的端到端程序修复方法

    公开(公告)号:CN112463424A

    公开(公告)日:2021-03-09

    申请号:CN202011265976.3

    申请日:2020-11-13

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于图的端到端程序修复方法,属于软件调试领域,该方法包括:缺陷数据集构建;缺陷程序切片;缺陷代码图嵌入;构建和训练Graph2Seq模型;利用训练好的Graph2Seq模型生成修复补丁并验证补丁的正确性。本发明提出的方法使用图表征代码,可以充分挖掘代码缺陷语句及其上下文之间的语法、语义关联,更好地学习缺陷的特征,从而生成质量更高、可读性更强的修复补丁,达到自动修复程序缺陷的目的,能极大提升自动程序修复的效率。

    漏洞补丁推荐方法、系统、计算机设备和存储介质

    公开(公告)号:CN111897946A

    公开(公告)日:2020-11-06

    申请号:CN202010652542.2

    申请日:2020-07-08

    Applicant: 扬州大学

    Abstract: 本发明公开了一种漏洞补丁推荐方法、系统、计算机设备和存储介质,方法包括:构建漏洞修复数据集,包括漏洞代码及对应的漏洞补丁源代码、漏洞类型特征、文档注释以及测试样例;构建并训练预训练模型;采集待修复的含有漏洞的代码片段及其对应的漏洞类型特征,构建补丁搜索空间;对补丁进行优先级排序,基于该顺序为待修复的代码片段推荐补丁。本发明充分利用漏洞的特征类型,一方面更好的进行预训练模型的构建,发挥预训练模型的优势,另一方面,有利于减少补丁搜索空间,更快速的获取所需补丁。此外,本发明充分利用预训练模型在自然语言方面的优势,结合代码和文本两个部分,进行预训练模型的构建和训练,很好的克服了人为规定等方式的不足。

Patent Agency Ranking