-
公开(公告)号:CN119960825A
公开(公告)日:2025-05-09
申请号:CN202510449628.8
申请日:2025-04-11
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请公开了一种代码克隆检测方法、系统、设备、介质及产品,涉及软件工程领域,该方法包括从待检测代码仓库获取待检测代码段,并将所有待检测代码段输入训练好的克隆代码检测模型中,输出与待检测代码段相对应的第一代码表示向量;任意选择两个第一代码表示向量作为代码对,将语义距离小于预设阈值的代码对标记为克隆代码。本申请可提升代码克隆检测的准确度。
-
公开(公告)号:CN112579476B
公开(公告)日:2021-05-18
申请号:CN202110198625.3
申请日:2021-02-23
Applicant: 北京北大软件工程股份有限公司
IPC: G06F11/36 , G06F16/9535
Abstract: 本发明实施例涉及软件测试领域,公开了一种漏洞和软件对齐的方法、装置以及存储介质,包括:抓取安全漏洞发布网站发布的漏洞信息,建立公开漏洞资源数据库;建立包含公开漏洞的软件信息数据库;以 的键值对为关键词,在指定网站范围内进行搜索,将对应键值对的搜索结果插入软件信息数据库;根据上一步得到的软件信息数据库进行过滤,筛选其中符合对齐要求的软件信息并设置为可信,标识其为对齐完成数据;每次更新漏洞数据库时查找并更新软件信息数据库;本发明基于搜索引擎的庞大搜索量所训练的推荐算法,能够获得较为准确的开源软件的源代码仓库地址,或者闭源软件的二进制下载链接。
-
公开(公告)号:CN119938135A
公开(公告)日:2025-05-06
申请号:CN202510442636.X
申请日:2025-04-10
Applicant: 北京北大软件工程股份有限公司
IPC: G06F8/75
Abstract: 本申请公开了一种代码克隆检测方法、装置、设备、介质及产品,涉及深度学习技术领域,该方法包括获取待检测代码库;其中,待检测代码库中包含多个待检测代码片段;确定每个待检测代码片段的哈希值;基于每个待检测代码片段的哈希值,确定高相似度代码片段对集合;其中,高相似度代码片段对集合中包含至少一组高相似度代码片段对;将高相似度代码片段对集合输入至预先训练的基于大语言模型的代码克隆检测模型,得到代码克隆检测模型输出的代码克隆检测结果,本申请可以充分利用大语言模型的能力,避免模型对代码语法表面特征的过度依赖,进而基于对代码片段的语义分析实现对代码功能相似性的准确判断,从而可以提升代码克隆检测的准确性。
-
公开(公告)号:CN112579476A
公开(公告)日:2021-03-30
申请号:CN202110198625.3
申请日:2021-02-23
Applicant: 北京北大软件工程股份有限公司
IPC: G06F11/36 , G06F16/9535
Abstract: 本发明实施例涉及软件测试领域,公开了一种漏洞和软件对齐的方法、装置以及存储介质,包括:抓取安全漏洞发布网站发布的漏洞信息,建立公开漏洞资源数据库;建立包含公开漏洞的软件信息数据库;以 的键值对为关键词,在指定网站范围内进行搜索,将对应键值对的搜索结果插入软件信息数据库;根据上一步得到的软件信息数据库进行过滤,筛选其中符合对齐要求的软件信息并设置为可信,标识其为对齐完成数据;每次更新漏洞数据库时查找并更新软件信息数据库;本发明基于搜索引擎的庞大搜索量所训练的推荐算法,能够获得较为准确的开源软件的源代码仓库地址,或者闭源软件的二进制下载链接。
-
-
-