-
公开(公告)号:CN114969763A
公开(公告)日:2022-08-30
申请号:CN202210700763.1
申请日:2022-06-20
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于seq2seq代码表示学习的细粒度漏洞检测方法,首先,提取漏洞候选关键节点作为切片准则,再使用程序切片技术提取程序中的切片代码段。然后,使用基于seq2seq深度学习模型,对切片代码段进行表示学习,生成包含语句间长依赖关系的语句向量表示序列,将序列中每条语句的向量表示送入检测器中,检测其是否为漏洞语句。该方法能够充分利用代码中的全局和局部语义信息,学习语句内和语句间的漏洞相关的特征,避免传统的基于深度学习分类模型对代码表示学习时难以捕获漏洞语句及其上下文之间的长依赖信息的问题,利用seq2seq模型对代码进行表示学习生成的语句向量表示序列,更适合语句级的细粒度漏洞检测。
-
公开(公告)号:CN115048491B
公开(公告)日:2024-09-06
申请号:CN202210693666.4
申请日:2022-06-18
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F8/41 , G06F40/30 , G06F17/18 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/0475 , G06N3/084
Abstract: 本发明公开了一种在异构语义空间中基于假设检验的软件跨模态检索方法,所述方法使用分布生成网络将文本投影到分布空间中的CFP相关分布;将代码表示为控制流图,并抽取其中所有的路径;利用样本生成网络将CFP映射为样本空间中的CFP样本向量,此时代码被表示为一个CFP样本向量集合;使用假设检验计算CFP样本向量集合对CFP相关分布的服从程度作为二者的匹配分数,并用于实现代码检索文本或文本检索代码形式的跨模态检索任务。本发明首次提出将代码和文本投影到异构语义空间中进行表示学习,即将文本投影到CFP相关分布空间并将代码投影到CFP样本空间,能够准确表征文本和代码各自的独特语义,提高跨模态检索的准确性。
-
公开(公告)号:CN118519542A
公开(公告)日:2024-08-20
申请号:CN202410774666.6
申请日:2024-06-17
Applicant: 哈尔滨工业大学
IPC: G06F3/023 , G06F16/953 , G06F16/332 , G06F16/338 , G06F16/9538
Abstract: 本发明公开了一种应用于输入法中的基于“三级上屏”的句子推荐方法,所述方法如下:组字区中显示用户输入的英文或者拼音;响应于输入拼音的操作,显示候选词显示界面;将选中的候选词填入组字区,并替换掉原来组字区中的拼音;检测组字区中的内容变化,基于组字区的内容发送双语搜索请求给服务器,服务器执行双语句子搜索操作,并将结果返回给客户端;客户端输入法接收服务器返回的结果,显示句子推荐展示界面,句子推荐展示界面中显示有与组字区中内容有关的搜索得到的双语语料句子,通过键盘上下键或数字键选中某条搜索结果,选中内容被填入文本编辑器中。本发明减少了用户对外部工具的依赖,极大提高了用户撰写文档时的便捷性和效率。
-
公开(公告)号:CN114816517B
公开(公告)日:2024-07-16
申请号:CN202210488430.7
申请日:2022-05-06
Applicant: 哈尔滨工业大学
IPC: G06F8/74 , G06N3/0442 , G06N3/08 , G06N3/042 , G06N3/045
Abstract: 本发明公开了一种层次语义感知的代码表示学习方法,所述方法针对给定的源代码,首先利用程序分析技术构建程序的有向无环语义图,然后抽取语义图中的语法子树信息,并利用Tree‑LSTM模型学习程序中每条语句的局部语义向量表示,最后基于语句的局部语义向量表示,利用Graph‑LSTM模型学习代码的结构和顺序语义信息。本发明首次提出适用于程序结构语义编码的基于图的LSTM模型Graph‑LSTM,并提出一种能够将源代码序列信息融入到代码表示学习过程中的新框架,提高了模型的特征表示能力。
-
公开(公告)号:CN115859307A
公开(公告)日:2023-03-28
申请号:CN202211678532.1
申请日:2022-12-26
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于树型注意力和加权图匹配的相似漏洞检测方法,首先,分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG。其次,利用语句节点嵌入网络分别提取FCG、vSCG和pSCG语句节点的语义和语法信息。接着,利用图神经网络和加权图匹配方法构成的图匹配模型,学习并计算FCG和vSCG之间以及FCG和pSCG之间的相似度,然后利用计算的三元组损失函数调整网络参数,训练检测模型。最后,利用训练好的模型检测软件中的相似漏洞。本发明可以在捕获代码中与漏洞相关的语法和语义特征的同时,有效利用补丁信息区分仅有细微差异的漏洞和补丁函数,从而提高相似漏洞检测的准确率。
-
公开(公告)号:CN112699377A
公开(公告)日:2021-04-23
申请号:CN202011613496.1
申请日:2020-12-30
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于切片属性图表示学习的函数级代码漏洞检测方法,首先引入新的切片准则,并提出切片属性图的概念,基于切片准则和程序切片技术生成代码的切片属性图,提取与漏洞候选关键点有依赖关系的图结构信息、节点属性信息和代码上下文信息;然后,利用关系图卷积神经网络并结合基于节点和子图的双重注意力机制,对切片属性图进行表示学习,以学习更全面、更准确的漏洞模式;最后对各个切片属性图的漏洞识别结果进行融合实现函数级别的漏洞检测,并确定漏洞候选语句的集合以及与漏洞相关联的语法要素。该方法能覆盖更多的漏洞候选关键点,充分学习和表示漏洞相关的结构、属性和上下文信息,提高漏洞检测的准确率。
-
公开(公告)号:CN115859307B
公开(公告)日:2024-11-22
申请号:CN202211678532.1
申请日:2022-12-26
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于树型注意力和加权图匹配的相似漏洞检测方法,首先,分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG。其次,利用语句节点嵌入网络分别提取FCG、vSCG和pSCG语句节点的语义和语法信息。接着,利用图神经网络和加权图匹配方法构成的图匹配模型,学习并计算FCG和vSCG之间以及FCG和pSCG之间的相似度,然后利用计算的三元组损失函数调整网络参数,训练检测模型。最后,利用训练好的模型检测软件中的相似漏洞。本发明可以在捕获代码中与漏洞相关的语法和语义特征的同时,有效利用补丁信息区分仅有细微差异的漏洞和补丁函数,从而提高相似漏洞检测的准确率。
-
公开(公告)号:CN118747369A
公开(公告)日:2024-10-08
申请号:CN202410884698.1
申请日:2024-07-03
Applicant: 哈尔滨工业大学 , 上海浦东发展银行股份有限公司
Abstract: 本发明提出基于双重注意力机制和代码相似度的漏洞检测方法,属于漏洞检测技术领域。包括:提取未知待测函数对应的程序依赖图,将语句对应的抽象语法树拓展到程序依赖图的每个节点上,形成复合图;将标注的漏洞语句作为切片准则,在程序依赖图中找到切片节点,作为根节点,展开抽象语法树,形成切片复合图;学习语句内的语法和语义信息,生成由语义和语法特征向量组成的语句节点初始嵌入向量;学习源代码的结构特征,获取切片复合图和复合图的向量表示,计算两者之间的相似度;当相似度超过某个阈值,目标函数就被定义为潜在漏洞函数。解决缺少能有效利用已知漏洞代码的漏洞信息的同时,忽略甚至消除代码中冗余的无关信息的漏洞检测方法问题。
-
公开(公告)号:CN118690346A
公开(公告)日:2024-09-24
申请号:CN202410730438.9
申请日:2024-06-06
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种序列决策和概率采样指导的漏洞检测语句级可解释方法,所述方法如下:将待解释的漏洞代码按照语句进行拆分,探索器按顺序遍历代码中的语句;探索器利用待解释的检测模型中的代码表示网络,根据候选漏洞模式和当前语句生成决策向量;导航器根据决策向量返回当前语句与漏洞相关概率,探索器根据导航器生成的漏洞相关概率执行概率采样;探索器根据采样做出决策,更新候选漏洞相关语句集合;利用标签信息和候选漏洞相关语句集合,计算增益值和期望梯度,将通过反向传播以调整导航器;用探索器和训练好的导航器对待解释模型的漏洞检测结果进行解释。本发明可灵活应用于现有的漏洞检测模型,且适用于有或没有细粒度标签两种训练场景。
-
公开(公告)号:CN118535028A
公开(公告)日:2024-08-23
申请号:CN202410774665.1
申请日:2024-06-17
Applicant: 哈尔滨工业大学
IPC: G06F3/023 , G06F16/953 , G06F16/332 , G06F16/338 , G06F16/9538
Abstract: 本发明公开了一种应用于输入法中的基于“三级上屏”的句子生成和显示方法,所述方法如下:组字区中显示用户输入的英文或者拼音;如检测到组字区中用户输入的拼音,响应于输入拼音的操作,显示候选词显示界面;将选中的候选词填入组字区,并替换掉原来组字区中的拼音;按下大模型触发快捷键,响应于针对组字区中内容的操作,客户端基于组字区的内容发送双语生成请求给服务器,服务器调用大模型执行双语生成操作,并将结果返回给客户端,客户端显示句子生成显示界面;句子生成显示界面中显示根据组字区中的内容利用大模型生成的至少一个句子,选中某个推荐句子进入终端设备。本发明能实现在输入法中直接对句子的文本预测与续写,显著提升输入效率。
-
-
-
-
-
-
-
-
-