-
公开(公告)号:CN119474540A
公开(公告)日:2025-02-18
申请号:CN202411576633.7
申请日:2024-11-06
Applicant: 哈尔滨工业大学
IPC: G06F16/9535 , G06F16/36 , G06N5/022 , G06F40/289 , G06F18/214 , G06N3/08
Abstract: 本发明公开了一种知识引导的基于大语言模型的可信API推荐方法,所述方法的核心思想是利用API知识提升LLM在API推荐任务中的可信性。具体地,针对LLM在API推荐中的不可信问题,本发明提出知识引导的数据增强以提升LLM建立用户指定类型与API序列之间的关联性的能力;提出知识引导的束搜索以引导LLM去生成真实存在且调用条件可以被满足的API;提出知识引导的重排序优化API序列推荐列表,使与接口参数类型匹配的API序列在推荐结果中的排名更靠前。本发明的优势在于能够在接口参数类型约束下实现API推荐,并且能够通过API知识图谱中的高质量先验知识提高大模型在API推荐任务中的可信性。
-
公开(公告)号:CN115080982A
公开(公告)日:2022-09-20
申请号:CN202210729780.8
申请日:2022-06-24
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种针对漏洞检测模型的组合对抗攻击方法,首先使用本发明中提出的4种代码扰动方法对程序骨架中可修改的语句进行扰动,生成大量语义相似的候选样本。其次,利用生成的候选样本初始化遗传算法的种群规模和成员,然后,根据不同的扰动方法设计变异算子,并对种群成员进行选择、交叉和变异操作生成新的种群;最后,判断每次迭代生成的新种群中是否存在适应度大于一定阈值的成员,如果存在,则表示成功获得对抗样本。根据本发明提出的多种代码扰动方法,可实现对各种语法要素执行语义保持的程序等价变换,从而提高生成的对抗样本质量。通过将遗传搜索策略与多种代码扰动方法相结合,能够提高对代码漏洞检测模型的攻击成功率和攻击效率。
-
公开(公告)号:CN115048491A
公开(公告)日:2022-09-13
申请号:CN202210693666.4
申请日:2022-06-18
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种在异构语义空间中基于假设检验的软件跨模态检索方法,所述方法使用分布生成网络将文本投影到分布空间中的CFP相关分布;将代码表示为控制流图,并抽取其中所有的路径;利用样本生成网络将CFP映射为样本空间中的CFP样本向量,此时代码被表示为一个CFP样本向量集合;使用假设检验计算CFP样本向量集合对CFP相关分布的服从程度作为二者的匹配分数,并用于实现代码检索文本或文本检索代码形式的跨模态检索任务。本发明首次提出将代码和文本投影到异构语义空间中进行表示学习,即将文本投影到CFP相关分布空间并将代码投影到CFP样本空间,能够准确表征文本和代码各自的独特语义,提高跨模态检索的准确性。
-
公开(公告)号:CN114969272A
公开(公告)日:2022-08-30
申请号:CN202210743639.3
申请日:2022-06-27
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种在API知识图谱上基于Q学习的API序列搜索方法,首先,设计了API本体结构,并从API文档与开源软件项目中抽取API知识用于构建API知识图谱。其次,通过Word2Vec词嵌入方法以及TransE表示学习方法生成强化学习的状态表示。再次,基于DQN方法,给出了基于强化学习的API序列搜索模型的训练算法。最后,基于训练好的强化学习模型,实现API序列搜索。本发明将API使用序列搜索任务转化为基于API知识图谱的路径搜索任务,能更好地保证搜索到的API序列的合法性。本发明采用强化学习实现API使用序列搜索,其独特的探索机制能探索更丰富的API调用方式,从而增强模型的泛化能力。
-
公开(公告)号:CN119557885A
公开(公告)日:2025-03-04
申请号:CN202411611308.X
申请日:2024-11-12
Applicant: 哈尔滨工业大学
IPC: G06F21/57 , G06F8/53 , G06F18/2431 , G06N3/0442
Abstract: 本发明公开了一种基于xLSTM模型的二进制切片级快速漏洞检测方法,该方法采用分段代码表示架构和新型的xLSTM模型。分段代码表示架构由指令编码网络和程序编码网络构成,通过结合指令编码网络和程序编码网络,可以全面捕获代码的细粒度语义信息和全局结构信息,从而增强漏洞检测模型的准确性。除此之外,该方法采用新颖的xLSTM模型,xLSTM引入了指数门控机制,与传统的Sigmoid门控相比,指数门控可以提供更动态的信息过滤能力,有助于改善记忆和遗忘过程。同时,xLSTM在门控计算中引入了额外的归一化和稳定化步骤,提升了模型的稳定性。此外,xLSTM引入了矩阵记忆,这允许并行处理并改善了存储容量。
-
公开(公告)号:CN115577362B
公开(公告)日:2024-09-27
申请号:CN202211105496.X
申请日:2022-09-09
Applicant: 哈尔滨工业大学
IPC: G06F21/57 , G06F18/25 , G06F18/213
Abstract: 本发明公开了一种基于源代码和汇编代码跨模态特征增强的漏洞检测方法,所述方法从源代码中提取控制依赖和数据依赖相关的语法语义特征,从汇编代码中提取内存操作相关的语法语义特征,然后使用高级语言程序源代码与其语句对齐的汇编代码输入到跨模态特征增强和融合的双模态表示学习模型进行软件漏洞检测。该方法能够对高级语言源代码和汇编代码两种程序模态进行表示学习,利用源代码和汇编代码之间的语句对齐关系,分别在源代码模态和汇编代码模态提取漏洞相关的语义特征,并使用不同的深度学习网络和交叉注意力机制学习二者之间的语义关联性,充分利用两种模态程序的特征互补性进行特征级融合,从而提升软件漏洞检测的准确性。
-
公开(公告)号:CN114969763A
公开(公告)日:2022-08-30
申请号:CN202210700763.1
申请日:2022-06-20
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于seq2seq代码表示学习的细粒度漏洞检测方法,首先,提取漏洞候选关键节点作为切片准则,再使用程序切片技术提取程序中的切片代码段。然后,使用基于seq2seq深度学习模型,对切片代码段进行表示学习,生成包含语句间长依赖关系的语句向量表示序列,将序列中每条语句的向量表示送入检测器中,检测其是否为漏洞语句。该方法能够充分利用代码中的全局和局部语义信息,学习语句内和语句间的漏洞相关的特征,避免传统的基于深度学习分类模型对代码表示学习时难以捕获漏洞语句及其上下文之间的长依赖信息的问题,利用seq2seq模型对代码进行表示学习生成的语句向量表示序列,更适合语句级的细粒度漏洞检测。
-
公开(公告)号:CN119475352A
公开(公告)日:2025-02-18
申请号:CN202411576635.6
申请日:2024-11-06
Applicant: 哈尔滨工业大学
IPC: G06F21/57 , G06F18/25 , G06F18/24 , G06F21/56 , G06N3/0455 , G06N3/0442 , G06N3/084
Abstract: 本发明公开了一种基于跨模态细粒度特征对齐和融合的语句级漏洞检测方法,所述方法将高级程序语言代码转换为源代码语句与汇编代码指令序列对齐且源代码变量与汇编代码寄存器对齐的双模态融合信息的汇编代码,通过双模态互切和双模态净化方法对代码进行预处理,得到净化后的源代码切片和汇编代码切片;将净化后到的双模态切片代码段送入编码网络进行双模态特征融合并学习语句的长依赖关系;将双模态信息融合的代码切片高级向量表示送入解码网络,将编码器得到的语义向量转换为特定序列;将解码网络的输出结果送入分类器中判别待测代码语句是否含有漏洞。本发明可检测出包含多种类型的漏洞或跨越多行语句的复杂漏洞结构,有效地降低误报率和漏报率。
-
公开(公告)号:CN115859307B
公开(公告)日:2024-11-22
申请号:CN202211678532.1
申请日:2022-12-26
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于树型注意力和加权图匹配的相似漏洞检测方法,首先,分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG。其次,利用语句节点嵌入网络分别提取FCG、vSCG和pSCG语句节点的语义和语法信息。接着,利用图神经网络和加权图匹配方法构成的图匹配模型,学习并计算FCG和vSCG之间以及FCG和pSCG之间的相似度,然后利用计算的三元组损失函数调整网络参数,训练检测模型。最后,利用训练好的模型检测软件中的相似漏洞。本发明可以在捕获代码中与漏洞相关的语法和语义特征的同时,有效利用补丁信息区分仅有细微差异的漏洞和补丁函数,从而提高相似漏洞检测的准确率。
-
公开(公告)号:CN118690346A
公开(公告)日:2024-09-24
申请号:CN202410730438.9
申请日:2024-06-06
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种序列决策和概率采样指导的漏洞检测语句级可解释方法,所述方法如下:将待解释的漏洞代码按照语句进行拆分,探索器按顺序遍历代码中的语句;探索器利用待解释的检测模型中的代码表示网络,根据候选漏洞模式和当前语句生成决策向量;导航器根据决策向量返回当前语句与漏洞相关概率,探索器根据导航器生成的漏洞相关概率执行概率采样;探索器根据采样做出决策,更新候选漏洞相关语句集合;利用标签信息和候选漏洞相关语句集合,计算增益值和期望梯度,将通过反向传播以调整导航器;用探索器和训练好的导航器对待解释模型的漏洞检测结果进行解释。本发明可灵活应用于现有的漏洞检测模型,且适用于有或没有细粒度标签两种训练场景。
-
-
-
-
-
-
-
-
-