一种针对缺陷类别和修复粒度的缺陷修复数据集构造方法

    公开(公告)号:CN120067676A

    公开(公告)日:2025-05-30

    申请号:CN202510091023.6

    申请日:2025-01-21

    Applicant: 南京大学

    Abstract: 本发明公开一种针对缺陷类别和修复粒度的缺陷修复数据集构造方法,包括:步骤1)输入标识待处理项目的配置文件;步骤2)针对Defects4j、SVN和Git管理项目的异构性,对待处理项目完成修复的有效性分析和多维修复语义的信息提取;步骤3)基于词元匹配和大语言模型从多维修复语义中判断修复类别;步骤4)基于静态分析方法和大语言模型从多维语义中判断修复粒度和修复粒度切割;步骤5)基于聚类来鉴别同种修复中相似修复结构;步骤6)将分类信息、运行配置信息、修复结构信息和人工鉴别信息持久化。本方法可以从Defects4j、Git和SVN中高效的构建针对多种类别的可以被自动修复程序学习的修复数据集,提升数据驱动的自动修复工具的开发验证效率。

Patent Agency Ranking