多模态大语言模型构建方法及系统

    公开(公告)号:CN119398163A

    公开(公告)日:2025-02-07

    申请号:CN202411185864.5

    申请日:2024-08-27

    Applicant: 北京大学

    Abstract: 本发明提供一种多模态大语言模型构建方法及系统,该方法包括:获取样本图像数据和所述样本图像数据对应的样本文本数据,其中,所述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的负样本文本数据;基于对比学习损失函数,根据所述样本图像数据和所述样本文本数据,对多模态大语言模型进行迭代训练,并在满足预设训练条件后,得到训练好的多模态大语言模型,其中,所述对比学习损失函数是根据所述样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特征表示之间的互信息构建得到的。本发明提高了多模态大语言模型在面对真实视觉数据时的鲁棒性和可靠性。

    代码漏洞检测大模型构建方法、装置和电子设备

    公开(公告)号:CN118171291B

    公开(公告)日:2024-09-20

    申请号:CN202410595002.3

    申请日:2024-05-14

    Applicant: 北京大学

    Inventor: 叶蔚 谢睿 张世琨

    Abstract: 本发明提供一种代码漏洞检测大模型构建方法、装置和电子设备,涉及计算机技术领域,该方法包括:基于漏洞修复信息对初始大语言模型进行第一轮训练,获得第一大语言模型;基于奖励函数对第一大语言模型进行优化,获得第二大语言模型;针对各预设代码,对预设代码对应的值依赖图进行分析,确定预设代码对应的初始漏洞检测结果;基于预设代码对应的初始漏洞检测结果和漏洞标注结果,确定初始漏洞检测结果到漏洞标注结果的噪音转移矩阵;基于各预设代码分别对应的初始漏洞检测结果和噪音转移矩阵生成各预设代码分别对应的第二提示词,基于各第二提示词对第二大语言模型进行训练,获得目标大语言模型。本发明技术方案能够降低计算的复杂度。

    分级多特征的代码同源分析方法及系统

    公开(公告)号:CN114968351A

    公开(公告)日:2022-08-30

    申请号:CN202210913259.X

    申请日:2022-08-01

    Applicant: 北京大学

    Abstract: 本发明涉及软件代码分析领域,公开了一种分级多特征的代码同源分析方法及系统,使用值依赖分析技术,脱离了特征提取对于结构的依赖,更准确地发现代码中的不可达路径、并更精确地计算变量常量值和变量之间的依赖关系,从而更加全面、准确构建代码在控制流和数据流上的归一化模型,使用分级的方法,将项目按照粒度由大到小划分为项目、包、文件、类和函数五层,此外按照分析精度由低到高划分为文本、标识、语法、语义四层,通过流水线由项目向函数逐级分解、再从函数向项目逐级推导和综合结果,通过流水线的方式有机组合不同粒度和不同分析层次,利用不同分析方法的优点,加速代码匹配过程,提高匹配速度和匹配精度。

    一种区间信息分析方法
    74.
    发明授权

    公开(公告)号:CN109002684B

    公开(公告)日:2021-08-06

    申请号:CN201810634685.3

    申请日:2018-06-20

    Applicant: 北京大学

    Abstract: 本发明提供一种区间信息分析方法,包括:S1,对于值依赖图中任一结点,根据该结点的任一前驱结点的区间信息和该结点与该前驱结点间的守卫条件,获取该前驱结点流入该结点的区间信息;S2,根据该结点的每一前驱结点流入该结点的区间信息和该结点的类型,获取该结点的区间信息。本发明提供的方法,应用递归的方法,基于前驱结点的区间信息和守卫条件,实现了值依赖图中任一结点区间信息的获取,提高了值依赖图的分析效率和分析进度。

    安卓APK文件依赖组件识别方法及装置

    公开(公告)号:CN112000339A

    公开(公告)日:2020-11-27

    申请号:CN202010657866.5

    申请日:2020-07-09

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种安卓APK文件依赖组件识别方法及装置。其中,方法包括:解析安卓APK文件,获取代码文件和清单文件,根据代码文件和清单文件,获取安卓工程依赖的各组件的文件和package目录;将安卓工程依赖的各组件的文件和package目录与Android SDK部分中各组件的jar的反编译结果进行比较,获取Android SDK部分所依赖的组件;将安卓工程依赖的各组件的文件和package目录与非Android SDK部分的各package依赖的jar的反编译结果进行比较,获取非Android SDK部分所依赖的组件。本发明实施例提供的安卓APK文件依赖组件识别方法及装置,能降低误识别率。

    软件同源分析方法及装置
    76.
    发明公开

    公开(公告)号:CN111666101A

    公开(公告)日:2020-09-15

    申请号:CN202010335325.0

    申请日:2020-04-24

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种软件同源分析方法及装置,所述方法包括:获取源代码数据库,所述源代码数据库包括:参考源代码文件的特征信息和参考源代码文件的创建时间;获取目标软件的目标源代码文件,所述目标源代码文件包括:目标源代码文件的特征信息;基于所述参考源代码文件的特征信息与所述目标源代码文件的特征信息的匹配结果,确定所述目标源代码文件的备选同源文件;将对应的所述创建时间最早的所述备选同源文件作为所述目标源代码文件对应的最终同源文件;根据所述最终同源文件,确定软件同源分析结果。本发明实施例的软件同源分析方法,解决了软件传播所造成的分析结果误差,提升了软件同源分析的精度。

    代码摘要自动化生成方法及装置

    公开(公告)号:CN111651198A

    公开(公告)日:2020-09-11

    申请号:CN202010312534.3

    申请日:2020-04-20

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种代码摘要自动化生成方法及装置,方法包括:基于代码摘要生成模型中的编码器分别对输入序列进行编码,获取输入序列的语义向量;基于代码摘要生成模型中的解码器对输入序列的语义向量进行解码,生成代码样本的函数名和代码摘要;根据生成的函数名、生成的代码摘要,以及预先获取的代码样本的目标函数名和目标代码摘要,计算代码摘要生成模型的损失函数的值,根据损失函数的值对代码摘要生成模型进行训练;将目标代码的输入序列输入训练好的代码摘要生成模型中生成目标代码的代码摘要。本发明实施例采用基于函数名预测任务和代码自动摘要生成任务的多任务学习机制对代码摘要生成模型进行训练,提升自动生成的代码摘要的质量。

    Java程序的区间分析方法及装置

    公开(公告)号:CN110244953A

    公开(公告)日:2019-09-17

    申请号:CN201910422882.3

    申请日:2019-05-21

    Abstract: 本发明实施例提供一种Java程序的区间分析方法和装置,其中方法包括:生成Java程序的值依赖图,值依赖图的节点为Java程序中的常量和变量,值依赖图的边为节点间的依赖关系,每条边还保存有前驱节点到后继节点的守卫值条件,从值依赖图的起始节点开始逐个计算区间信息:对于当前计算的节点,将前驱节点的区间信息的并集采用当前计算的节点与前驱节点之间的守卫值条件进行过滤,获得当前计算的节点的区间取值,将区间取值经对应的转换函数进行转换,作为当前计算的节点的区间信息。本发明实施例解决了现有方法对判断语句处理上精度不足的弊端。

    一种区间信息分析方法
    79.
    发明公开

    公开(公告)号:CN109002684A

    公开(公告)日:2018-12-14

    申请号:CN201810634685.3

    申请日:2018-06-20

    Applicant: 北京大学

    Abstract: 本发明提供一种区间信息分析方法,包括:S1,对于值依赖图中任一结点,根据该结点的任一前驱结点的区间信息和该结点与该前驱结点间的守卫条件,获取该前驱结点流入该结点的区间信息;S2,根据该结点的每一前驱结点流入该结点的区间信息和该结点的类型,获取该结点的区间信息。本发明提供的方法,应用递归的方法,基于前驱结点的区间信息和守卫条件,实现了值依赖图中任一结点区间信息的获取,提高了值依赖图的分析效率和分析进度。

    一种基于多状态科学工作流的数据世系追溯系统和方法

    公开(公告)号:CN103745319B

    公开(公告)日:2017-01-04

    申请号:CN201410010013.7

    申请日:2014-01-09

    Applicant: 北京大学

    Abstract: 一种基于多状态科学工作流的数据世系追溯系统和方法,以基于有向图的科学工作流过程模型为基础,对其进行扩展,得到一个扩展的科学工作流过程模型。再利用数据世系技术丰富其数据模型部分,从过程和数据两个角度全方位地描述科学工作流的执行过程,得到基于多状态的科学工作流过程数据统一管理模型,并以此对数据世系进行描述和追溯。本发明可以更好地描述大规模复杂科学计算和协同研发流程中数据的演化和状态,从而增强对流程过程的监控能力,实现流程全方位的管理策略,提高科研效率,并促进科学发展和技术进步。

Patent Agency Ranking