-
公开(公告)号:CN119311313A
公开(公告)日:2025-01-14
申请号:CN202411385802.9
申请日:2024-09-30
Applicant: 北京轩宇信息技术有限公司
IPC: G06F8/75 , G06F18/22 , G06F18/24 , G06F18/213 , G06N5/022
Abstract: 本发明公开一种多阶段多层次代码特征高效匹配方法:输入文件特征信息和文件代码片段特征信息的待匹配标准代码文件;当待匹配代码文件的文件后缀名及特征值与代码特征信息知识库中的相同,取知识库中的该匹配文件作为文件级匹配结果,否则对待匹配代码文件进行片段级代码特征匹配;依次将待匹配文件中片段特征信息的特征值与知识库中所有代码片段的特征值进行匹配,得到片段级匹配结果;统计知识库里不同文件下匹配成功的代码片段数量,选取数量最多的文件作为文件级匹配结果;统计知识库里各项目下文件级匹配结果的文件数量,选取排序第一的项目作为与待匹配代码文件相似的项目作为项目级匹配结果,评价待匹配文件与项目级匹配结果的相似程度。
-
公开(公告)号:CN119311314A
公开(公告)日:2025-01-14
申请号:CN202411385821.1
申请日:2024-09-30
Applicant: 北京轩宇信息技术有限公司
IPC: G06F8/75 , G06F18/213 , G06F8/40 , G06F40/284 , G06F8/73 , G06F18/24
Abstract: 本发明公开一种适用于不同编程语言的高效代码特征提取方法,包括:从指定的项目路径中加载不同编程语言配置文件,通过预定义的语言解析规则映射器解析语言配置文件,生成适用于不同编程语言的语言规则映射表;识别编程语言类型,按类型创建多任务队列并分配任务线程;依据语言规则映射表,对源代码预处理后进行分词和标记,对分词结果归一化后生成归一化后的源代码文件;对归一化后的源代码文件按给定的窗口和步长大小进行代码块分割并生成哈希值作为特征值,获得以哈希值序列为特征指纹的代码文件;将以哈希值序列为特征指纹的代码文件以及标记内容按标准化格式进行序列化存储并输出。本发明能够提高代码分析的效率和准确性。
-