一种二进制反编译中数组数据结构恢复方法及系统

    公开(公告)号:CN108958739B

    公开(公告)日:2020-11-10

    申请号:CN201810573717.3

    申请日:2018-06-06

    Abstract: 本发明提供一种二进制反编译中数组数据结构恢复方法及系统,所述方法包括:S11,对于目标反编译结果中任一非指针变量,若该非指针变量的实际占位大小与该非指针变量的类型对应的占位大小之间的差值大于第一预设阈值,则将该非指针变量作为目标变量;S12,获取目标变量在目标反编译结果中各使用位置对应的第一使用模式,若根据第一使用模式对应的第一权重确定目标变量为数组变量,则对数组变量的数据结构进行恢复。本发明实现了对反编译结果中数组数据结构的自动恢复,且提高了数组数据结构恢复的正确率。

    细粒度情感分析模型训练方法及装置

    公开(公告)号:CN111666761A

    公开(公告)日:2020-09-15

    申请号:CN202010404188.1

    申请日:2020-05-13

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种细粒度情感分析模型训练方法及装置,所述方法包括:获取带有情感标记以及方面词的文本信息;对文本信息中的每条语句进行分词处理,获取每条语句中每个词的上下文词向量,根据每个词的上下文词向量以及方面词的词向量得到文本信息中每条语句对应的语句向量;根据每条语句对应的语句向量获取每条语句的上下文语句向量,并获取每条语句基于方面词的语句权重,根据上下文语句向量与语句权重得到文本信息的文本向量;将文本向量、情感标记、以及方面词输入到循环神经网络,训练得到神经网络模型。采用本方法能够对文本数据的细粒度的各种方面情感类型进行识别,进而也提高了情感识别的准确率。

    序列标注方法及装置
    23.
    发明公开

    公开(公告)号:CN111666734A

    公开(公告)日:2020-09-15

    申请号:CN202010334370.4

    申请日:2020-04-24

    Applicant: 北京大学

    Abstract: 本发明实施例提供一种序列标注方法及装置。其中,方法包括:获取待分析的句子;将待分析的句子输入至序列标注模型,输出句子的分词结果及每个词的标注结果;其中,序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。本发明实施例提供的序列标注方法及装置,通过强化学习技术隐式地学习文本的分词信息,能缓解中文序列标注中分词与目标的不匹配。

    网络数据延迟控制方法
    24.
    发明授权

    公开(公告)号:CN106230661B

    公开(公告)日:2019-05-14

    申请号:CN201610620800.2

    申请日:2016-08-01

    Applicant: 北京大学

    Abstract: 本发明公布了网络数据延迟控制方法,涉及网络化数据控制技术。本发明提供的技术方案通过设置大小数据包对来检测网络的延迟差异,分析得到延迟与数据包大小无关分量和与数据包相关分量,能够检测出延迟和数据包大小的关系,从而实现通过设置数据包大小来控制延迟;或者通过对延迟的监测和分析,划分出延迟长期分量和延迟短期分量,从而根据这两个分量可以更精确的预测和控制延迟。

    一种基于注释的仿真代码同步生成方法

    公开(公告)号:CN104199664B

    公开(公告)日:2017-06-06

    申请号:CN201410445887.5

    申请日:2014-09-03

    Applicant: 北京大学

    Abstract: 一种基于注释的仿真代码同步生成方法,包括:设计一个仿真描述模型;将该仿真描述模型导出为底层仿真代码;将导出的仿真代码放入实际仿真机中进行执行,并根据执行结果对仿真代码进行修改,然后将修改结果同步到仿真描述模型。通过上述方法,就能完成仿真描述模型与仿真代码之间的同步生成。利用本发明,可充分利用软件仿真的优势,将仿真软件应用到实时仿真领域中,能够缩短仿真模型设计周期、减少人为失误、减少重复工作量、降低对仿真人员编程知识的要求。

    网络数据延迟控制方法
    26.
    发明公开

    公开(公告)号:CN106230661A

    公开(公告)日:2016-12-14

    申请号:CN201610620800.2

    申请日:2016-08-01

    Applicant: 北京大学

    CPC classification number: H04L43/0858 H04L43/0864 H04L43/10

    Abstract: 本发明公布了网络数据延迟控制方法,涉及网络化数据控制技术。本发明提供的技术方案通过设置大小数据包对来检测网络的延迟差异,分析得到延迟与数据包大小无关分量和与数据包相关分量,能够检测出延迟和数据包大小的关系,从而实现通过设置数据包大小来控制延迟;或者通过对延迟的监测和分析,划分出延迟长期分量和延迟短期分量,从而根据这两个分量可以更精确的预测和控制延迟。

    多模态大语言模型构建方法及系统

    公开(公告)号:CN119398163A

    公开(公告)日:2025-02-07

    申请号:CN202411185864.5

    申请日:2024-08-27

    Applicant: 北京大学

    Abstract: 本发明提供一种多模态大语言模型构建方法及系统,该方法包括:获取样本图像数据和所述样本图像数据对应的样本文本数据,其中,所述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的负样本文本数据;基于对比学习损失函数,根据所述样本图像数据和所述样本文本数据,对多模态大语言模型进行迭代训练,并在满足预设训练条件后,得到训练好的多模态大语言模型,其中,所述对比学习损失函数是根据所述样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特征表示之间的互信息构建得到的。本发明提高了多模态大语言模型在面对真实视觉数据时的鲁棒性和可靠性。

    代码漏洞检测大模型构建方法、装置和电子设备

    公开(公告)号:CN118171291B

    公开(公告)日:2024-09-20

    申请号:CN202410595002.3

    申请日:2024-05-14

    Applicant: 北京大学

    Inventor: 叶蔚 谢睿 张世琨

    Abstract: 本发明提供一种代码漏洞检测大模型构建方法、装置和电子设备,涉及计算机技术领域,该方法包括:基于漏洞修复信息对初始大语言模型进行第一轮训练,获得第一大语言模型;基于奖励函数对第一大语言模型进行优化,获得第二大语言模型;针对各预设代码,对预设代码对应的值依赖图进行分析,确定预设代码对应的初始漏洞检测结果;基于预设代码对应的初始漏洞检测结果和漏洞标注结果,确定初始漏洞检测结果到漏洞标注结果的噪音转移矩阵;基于各预设代码分别对应的初始漏洞检测结果和噪音转移矩阵生成各预设代码分别对应的第二提示词,基于各第二提示词对第二大语言模型进行训练,获得目标大语言模型。本发明技术方案能够降低计算的复杂度。

    分级多特征的代码同源分析方法及系统

    公开(公告)号:CN114968351A

    公开(公告)日:2022-08-30

    申请号:CN202210913259.X

    申请日:2022-08-01

    Applicant: 北京大学

    Abstract: 本发明涉及软件代码分析领域,公开了一种分级多特征的代码同源分析方法及系统,使用值依赖分析技术,脱离了特征提取对于结构的依赖,更准确地发现代码中的不可达路径、并更精确地计算变量常量值和变量之间的依赖关系,从而更加全面、准确构建代码在控制流和数据流上的归一化模型,使用分级的方法,将项目按照粒度由大到小划分为项目、包、文件、类和函数五层,此外按照分析精度由低到高划分为文本、标识、语法、语义四层,通过流水线由项目向函数逐级分解、再从函数向项目逐级推导和综合结果,通过流水线的方式有机组合不同粒度和不同分析层次,利用不同分析方法的优点,加速代码匹配过程,提高匹配速度和匹配精度。

    一种区间信息分析方法
    30.
    发明授权

    公开(公告)号:CN109002684B

    公开(公告)日:2021-08-06

    申请号:CN201810634685.3

    申请日:2018-06-20

    Applicant: 北京大学

    Abstract: 本发明提供一种区间信息分析方法,包括:S1,对于值依赖图中任一结点,根据该结点的任一前驱结点的区间信息和该结点与该前驱结点间的守卫条件,获取该前驱结点流入该结点的区间信息;S2,根据该结点的每一前驱结点流入该结点的区间信息和该结点的类型,获取该结点的区间信息。本发明提供的方法,应用递归的方法,基于前驱结点的区间信息和守卫条件,实现了值依赖图中任一结点区间信息的获取,提高了值依赖图的分析效率和分析进度。

Patent Agency Ranking