-
公开(公告)号:CN113961241A
公开(公告)日:2022-01-21
申请号:CN202111291169.3
申请日:2021-11-02
Applicant: 南京大学
Abstract: 本发明公开了一种基于GAT图神经网络模型的代码克隆检测方法,包括以下步骤:根据克隆代码的定义,从编程竞赛网站和现有代码克隆数据集提取生成相应定义的克隆代码数据;解析代码文本生成AST抽象语法树;在AST抽象语法树的基础上增加人工定义的附加边生成表示图;将代码表示图输入GAT网络模型训练获得图表征向量;拼接克隆代码对的表征向量输入二分类网络;判别输出代码克隆预测结果。本发明解决了代码克隆检测领域对代码语义型克隆检测能力不足的问题,通过将代码文本转换为图结构表示,从语义与结构层面表征了克隆代码信息,能准确获得学习克隆代码的内在联系并进行克隆代码判别预测,提高了代码克隆检测的准确性。
-
公开(公告)号:CN112149180A
公开(公告)日:2020-12-29
申请号:CN202011036947.X
申请日:2020-09-27
Applicant: 南京大学
IPC: G06F21/62 , G06F40/289 , G06Q50/18 , G06F16/335
Abstract: 本发明公开了一种基于规则设计的敏感信息命名实体识别和处理方法,包括以下步骤:对用户输入进行预处理,包括过滤不可脱敏项和保存待脱敏裁判文书文件至本地;对裁判文书进行预处理,包括重新调整文书结构,去除其中无用字符;应用脱敏规则,根据用户输入的待脱敏项处理文书,使用正则表达式进行匹配,并通过特征词进行判断和处理,再利用找到的敏感信息词生成其在文书中的信息坐标集合;逐行读取原文书文本,并依次提取信息坐标进行文本替换;输出脱敏后文书文件。本发明模拟法院审管办人员在实际将裁判文书进行网络发布过程中,进行脱敏处理的真实场景,从文书结构分析了各敏感信息的相关规则,能准确定位敏感信息,提高了脱敏结果的准确性。
-