-
公开(公告)号:CN119357926A
公开(公告)日:2025-01-24
申请号:CN202411469721.7
申请日:2024-10-21
Applicant: 厦门大学
IPC: G06F21/12 , G06F18/214 , G06F18/24 , G06N5/04 , G06N3/0499
Abstract: 本发明公开了一种代码预训练模型未授权数据的检测方法,包括以下步骤:S1、对代码数据进行采样及预处理;S2、针对代码的目标模型,训练一个影子模型来模拟目标模型的行为;S3、采用信号抽取器,提取代码的目标模型和影子模型的预训练任务的信号,针对不同预训练任务的损失,作为后续加权分类模型的特征输入,用于后续的推理;S4、采用难易度矫正模型,对信号抽取器输出的信号进行难易度矫正,用于使信号抽取器输出的信号不受样本难易度的干扰;S5、采用加权分类模型学习信号抽取器的输出信号及难易度矫正模型矫正后的多种信号,并给出预训练模型是否使用过某条未授权数据的判断。
-
公开(公告)号:CN117725087B
公开(公告)日:2024-06-04
申请号:CN202410176550.2
申请日:2024-02-08
Applicant: 厦门大学
IPC: G06F16/242 , G06F16/248 , G06F16/28
Abstract: 本发明提供了代码搜索技术领域的一种基于重排序的代码搜索去偏差方法及系统,方法包括:步骤S1、基于历史搜索语句、历史搜索结果组成的搜索数据构建数据集;步骤S2、计算各搜索数据的MRR分数,基于偏差项对搜索数据分组;步骤S3、通过历史搜索结果计算各历史搜索语句的重排序分数项;步骤S4、计算当前搜索语句在候选代码库搜索候选代码的MRR分数;步骤S5、计算与当前搜索语句最相似的n条搜索数据;步骤S6、基于MRR分数对搜索数据进行聚类得到低MRR分数代码区间;步骤S7、通过低MRR分数代码区间中代码的先验偏差项特征,为候选代码库具有相同偏差项的候选代码的MRR分数加上重排序分数项以进行去偏。本发明的优点在于:极大的提升了代码搜索的准确性。
-
公开(公告)号:CN117725087A
公开(公告)日:2024-03-19
申请号:CN202410176550.2
申请日:2024-02-08
Applicant: 厦门大学
IPC: G06F16/242 , G06F16/248 , G06F16/28
Abstract: 本发明提供了代码搜索技术领域的一种基于重排序的代码搜索去偏差方法及系统,方法包括:步骤S1、基于历史搜索语句、历史搜索结果组成的搜索数据构建数据集;步骤S2、计算各搜索数据的MRR分数,基于偏差项对搜索数据分组;步骤S3、通过历史搜索结果计算各历史搜索语句的重排序分数项;步骤S4、计算当前搜索语句在候选代码库搜索候选代码的MRR分数;步骤S5、计算与当前搜索语句最相似的n条搜索数据;步骤S6、基于MRR分数对搜索数据进行聚类得到低MRR分数代码区间;步骤S7、通过低MRR分数代码区间中代码的先验偏差项特征,为候选代码库具有相同偏差项的候选代码的MRR分数加上重排序分数项以进行去偏。本发明的优点在于:极大的提升了代码搜索的准确性。
-
-