一种面向软件缺陷知识的实体、关系联合抽取方法

    公开(公告)号:CN109492113B

    公开(公告)日:2022-05-13

    申请号:CN201811306356.2

    申请日:2018-11-05

    Applicant: 扬州大学

    Abstract: 本发明公开了一种面向软件缺陷知识的实体、关系联合抽取方法,包括以下步骤:首先采集开源缺陷库的文本数据,并对所述文本数据进行预处理,获得缺陷文本数据语料库;然后从缺陷文本数据语料库提取描述缺陷的语句S,对S进行处理并作为后续的输入语句;之后构建基于转移系统的实体、关系联合抽取模型;然后结合建立的基于转移系统的实体、关系联合抽取模型,获取上述输入语句对应的实体集合E以及关系集合R;最后将实体集合E以及关系集合R输出,完成实体、关系的联合抽取。本发明可以将缺陷实体抽取和关系识别这两个子任务紧密联系起来,最终抽取出缺陷文本的关键信息,帮助软件开发者快速、高效的了解缺陷信息以完成缺陷修复。

    面向软件缺陷知识的知识搜索方法

    公开(公告)号:CN110413732B

    公开(公告)日:2023-11-24

    申请号:CN201910641797.6

    申请日:2019-07-16

    Applicant: 扬州大学

    Abstract: 本发明公开了一种面向软件缺陷知识的知识搜索方法,属于软件开发与维护领域,包括以下步骤:对用户输入的搜索问句进行预处理以形成问句的语法依赖树;根据语法依赖树抽取问题语义三元组,该三元组包括主语、关系与宾语;将问题语义三元组与现有的软件缺陷知识图谱三元组库进行匹配,获得匹配三元组集合;根据匹配三元组集合构建搜索结果子图,并返回给用户。本发明方法针对软件缺陷领域用户可能会搜索的问题条件进行语义分析,并结合知识图谱、自然语言处理这些日益成熟的技术将用户的问题转化成结构化的查询语言并和已有的知识图谱相关联,能够实现更好的搜索交互过程,为软件开发和维护领域提供良好的缺陷信息搜索平台,辅助修复过程。

    一种文本代码相结合的缺陷原因自动分类方法

    公开(公告)号:CN109492106B

    公开(公告)日:2022-05-13

    申请号:CN201811346186.0

    申请日:2018-11-13

    Applicant: 扬州大学

    Abstract: 本发明公开了一种文本代码相结合的缺陷原因自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容及附录中的patch文件,之后进行数据清洗形成缺陷数据集;选取状态为VERIFIED FIXED且附有patch文件的缺陷,构建待分类缺陷集;抽取待分类缺陷集中缺陷的文本内容并进行自然语言处理,之后对其进行类别标注,构建缺陷原因分类集;从patch文件中抽取缺陷修复前、后的diff代码,获取缺陷修复中修改的diff代码对应的缺陷修改结构类别;利用深度学习方法对缺陷原因分类集进行训练,获取缺陷原因自动分类器。本发明通过深度学习模型挖掘缺陷报告的语义信息和diff结构特征,能准确预测缺陷的原因类别,明确发生缺陷的可疑代码结构,从而更准确的引导后续的缺陷定位和缺陷修复。

    面向软件缺陷的领域知识图谱自动化构建方法

    公开(公告)号:CN108121829B

    公开(公告)日:2022-05-24

    申请号:CN201810047681.5

    申请日:2018-01-12

    Applicant: 扬州大学

    Abstract: 本发明涉及面向软件缺陷的领域知识图谱自动化构建方法。本发明对bug缺陷关系三元组的抽取,再对bug缺陷领域的分类,即将bug缺陷库中bug相关信息进行收集并处理bug描述信息,通过自然语言处理得到描述句子中动词短语和名词短语,再根据bug信息相关的词与词之间依存关系,得出bug关系三元组,提取bug缺陷领域特征,采用半监督分类器进行训练、学习,使得分类器自动分类之前未被标记的三元组,将所有分类过的关系三元组存放在图形数据库中,构造出面向软件缺陷的领域知识图谱。本发明克服了在bug缺陷领域无有效处理方法的缺陷。本发明从自然语言处理角度,分析bug缺陷描述,帮助软件开发者和维护者更直观、快速、准确理解bug缺陷信息及其领域知识,提高效率,实现软件缺陷领域知识图谱,建立bug之间的关联关系。

    一种文本代码相结合的缺陷原因自动分类方法

    公开(公告)号:CN109492106A

    公开(公告)日:2019-03-19

    申请号:CN201811346186.0

    申请日:2018-11-13

    Applicant: 扬州大学

    Abstract: 本发明公开了一种文本代码相结合的缺陷原因自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容及附录中的patch文件,之后进行数据清洗形成缺陷数据集;选取状态为VERIFIED FIXED且附有patch文件的缺陷,构建待分类缺陷集;抽取待分类缺陷集中缺陷的文本内容并进行自然语言处理,之后对其进行类别标注,构建缺陷原因分类集;从patch文件中抽取缺陷修复前、后的diff代码,获取缺陷修复中修改的diff代码对应的缺陷修改结构类别;利用深度学习方法对缺陷原因分类集进行训练,获取缺陷原因自动分类器。本发明通过深度学习模型挖掘缺陷报告的语义信息和diff结构特征,能准确预测缺陷的原因类别,明确发生缺陷的可疑代码结构,从而更准确的引导后续的缺陷定位和缺陷修复。

    面向软件缺陷知识的知识搜索方法

    公开(公告)号:CN110413732A

    公开(公告)日:2019-11-05

    申请号:CN201910641797.6

    申请日:2019-07-16

    Applicant: 扬州大学

    Abstract: 本发明公开了一种面向软件缺陷知识的知识搜索方法,属于软件开发与维护领域,包括以下步骤:对用户输入的搜索问句进行预处理以形成问句的语法依赖树;根据语法依赖树抽取问题语义三元组,该三元组包括主语、关系与宾语;将问题语义三元组与现有的软件缺陷知识图谱三元组库进行匹配,获得匹配三元组集合;根据匹配三元组集合构建搜索结果子图,并返回给用户。本发明方法针对软件缺陷领域用户可能会搜索的问题条件进行语义分析,并结合知识图谱、自然语言处理这些日益成熟的技术将用户的问题转化成结构化的查询语言并和已有的知识图谱相关联,能够实现更好的搜索交互过程,为软件开发和维护领域提供良好的缺陷信息搜索平台,辅助修复过程。

    一种面向软件缺陷知识的实体、关系联合抽取方法

    公开(公告)号:CN109492113A

    公开(公告)日:2019-03-19

    申请号:CN201811306356.2

    申请日:2018-11-05

    Applicant: 扬州大学

    Abstract: 本发明公开了一种面向软件缺陷知识的实体、关系联合抽取方法,包括以下步骤:首先采集开源缺陷库的文本数据,并对所述文本数据进行预处理,获得缺陷文本数据语料库;然后从缺陷文本数据语料库提取描述缺陷的语句S,对S进行处理并作为后续的输入语句;之后构建基于转移系统的实体、关系联合抽取模型;然后结合建立的基于转移系统的实体、关系联合抽取模型,获取上述输入语句对应的实体集合E以及关系集合R;最后将实体集合E以及关系集合R输出,完成实体、关系的联合抽取。本发明可以将缺陷实体抽取和关系识别这两个子任务紧密联系起来,最终抽取出缺陷文本的关键信息,帮助软件开发者快速、高效的了解缺陷信息以完成缺陷修复。

    面向软件缺陷的领域知识图谱自动化构建方法

    公开(公告)号:CN108121829A

    公开(公告)日:2018-06-05

    申请号:CN201810047681.5

    申请日:2018-01-12

    Applicant: 扬州大学

    Abstract: 本发明涉及面向软件缺陷的领域知识图谱自动化构建方法。本发明对bug缺陷关系三元组的抽取,再对bug缺陷领域的分类,即将bug缺陷库中bug相关信息进行收集并处理bug描述信息,通过自然语言处理得到描述句子中动词短语和名词短语,再根据bug信息相关的词与词之间依存关系,得出bug关系三元组,提取bug缺陷领域特征,采用半监督分类器进行训练、学习,使得分类器自动分类之前未被标记的三元组,将所有分类过的关系三元组存放在图形数据库中,构造出面向软件缺陷的领域知识图谱。本发明克服了在bug缺陷领域无有效处理方法的缺陷。本发明从自然语言处理角度,分析bug缺陷描述,帮助软件开发者和维护者更直观、快速、准确理解bug缺陷信息及其领域知识,提高效率,实现软件缺陷领域知识图谱,建立bug之间的关联关系。

Patent Agency Ranking