一种大语言模型微调数据集的构建方法、装置及电子设备

    公开(公告)号:CN119397270A

    公开(公告)日:2025-02-07

    申请号:CN202411404405.1

    申请日:2024-10-09

    Abstract: 本申请提供了一种大语言模型微调数据集的构建方法、装置及电子设备,其中所述方法包括:调用安全知识库对初始种子指令集对应的查询向量进行检索,从存储于安全知识库内的多个向量集中筛选出与查询向量相似度大于第一预设阈值的候选向量集,安全知识库为基于本地的网络安全文本数据预先构建的知识库;将候选向量集对应的待选指令集输入至大语言模型,通过自指导生成方法扩展待选指令集,获得扩展指令集;度量扩展指令集的多样性,从扩展指令集中筛选出熵值小于第二预设阈值的分散指令集,熵值与多样性呈反比;采用Rouge_L分数对分散指令集进行质量评估,过滤掉质量不达标的指令,获得微调数据集,微调数据集用于对大语言模型进行训练。

    威胁情报信息处理方法、装置以及存储介质

    公开(公告)号:CN117134962A

    公开(公告)日:2023-11-28

    申请号:CN202311083132.0

    申请日:2023-08-25

    Abstract: 本公开提供了一种威胁情报信息处理方法、装置以及存储介质,其中的方法包括:对漏洞情报信息和事件情报信息分别进行融合处理,生成漏洞情报融合信息和事件情报融合信息;在漏洞情报融合信息中提取属性信息,基于属性信息和资产信息确定与漏洞情报融合信息对应的漏洞情报信息是否为威胁漏洞信息;利用训练好的事件预测模型对事件情报融合信息进行处理,确定与事件情报融合信息对应的事件情报信息是否为行业威胁事件信息;对威胁漏洞信息和行业威胁事件信息进行安全处理。本公开可以提高威胁情报信息识别的准确度,减少漏报威胁情报、误报无效的威胁情报的情况,可以减少安全运营人员的响应时间,提高网络安全防护能力,降低了运营成本。

    前端程序开发方法及相关硬件
    6.
    发明公开

    公开(公告)号:CN118860409A

    公开(公告)日:2024-10-29

    申请号:CN202410939026.6

    申请日:2024-07-12

    Abstract: 本发明实施例提供的前端程序开发方法及相关硬件,通过第一开发端采用容器技术将前端程序构建工具和依赖项打包为二进制文件形式的镜像,之后第一开发端将二进制文件形式的镜像提供给第二开发端,第二开发端通过加载该二进制文件形式的镜像得到包含前端程序构建工具和依赖项的容器,通过在容器中将前端程序的依赖项和代码工程文件进行编译打包得到最终的前端程序文件,实现了第二开发端在不获得依赖项的源代码的前提下基于依赖项进行后续前端工程代码开发并编译得到最终的前端程序文件。除第一开发者以外的其它人(包括第二开发者)难以通过对二进制文件反编译的方式得到可被人理解代码工作原理的依赖项的源代码,有效地实现了对依赖项的保密。

    数据处理方法、装置及设备
    7.
    发明公开

    公开(公告)号:CN119939308A

    公开(公告)日:2025-05-06

    申请号:CN202411999295.8

    申请日:2024-12-31

    Abstract: 本申请涉及计算机数据处理技术领域,提供了数据处理方法、装置及设备,用以解决相关技术中数据治理的方法存在数据处理效率较低的问题。本申请实施例首先,对待处理数据进行数据清洗处理,得到待去重数据,然后,对待去重数据进行分类处理,得到多个类别的数据,并对多个类别的数据进行查重以及去重处理,最后,基于去重后数据得到用于进行模型训练的目标数据。本申请实施例通过对数据进行清洗,提高了数据质量,再对清洗后的数据进行查重以及去重处理,保证在数据大规模扩展时也能高效识别重复内容,提高重复检测的精准度,以及提高数据处理的效率,且本申请提供的技术方案,方法简单,通用性较好。

    一种数据处理方法、装置及设备
    8.
    发明公开

    公开(公告)号:CN119577485A

    公开(公告)日:2025-03-07

    申请号:CN202411579145.1

    申请日:2024-11-06

    Abstract: 本申请实施例提供了一种数据处理方法、装置及设备,用以获得能够训练复杂网络模型的具有代表性的数据样本集。该方法包括:在获取数据类型为目标类型的原始数据集后,基于原始数据集对数据筛选模型进行多轮训练:其中,每轮训练时,通过上一轮的数据种子集对用于处理目标类型数据的初始模型进行训练和测试,并根据测试结果中的负样例样本从原始数据集中确定目标数据并更新数据种子集,得到下一轮训练使用的数据种子集。直到满足测试设定条件时,通过当前轮次的数据筛选模型对原始数据集进行筛选,进而筛选到具有代表性的能够用于训练处理目标类型数据的网络模型的训练数据集。

    情报信息的处理方法、装置、设备、介质及程序

    公开(公告)号:CN115169350B

    公开(公告)日:2024-03-12

    申请号:CN202210856314.6

    申请日:2022-07-14

    Abstract: 本公开实施例提供了一种情报信息的处理方法、装置、计算机设备、可读存储介质及程序,涉及计算机技术领域。该方法包括:获取第一情报信息;将第一情报信息转换为词向量表示;将词向量表示的第一情报信息输入至通过训练的情报信息处理模型,以使情报信息处理模型识别第一情报信息中的实体;将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型,以使情报信息处理模型预测第一情报信息的实体之间的关系;输出第一情报信息的实体以及实体之间的关系。本公开实施例提供的方案可以通过一个情报信息处理模型同时识别情报信息的实体,并提取情报信息的实体之间的关系。

Patent Agency Ranking