用于问答检索模型的训练方法、装置及存储介质

    公开(公告)号:CN117421573A

    公开(公告)日:2024-01-19

    申请号:CN202311457081.3

    申请日:2023-11-03

    Abstract: 本申请实施例提供一种用于问答检索模型的训练方法、装置及存储介质。方法包括:确定训练数据集,训练数据集包括多个长问答文本;将每个长问答文本依次输入至编码器,并基于编码器的输出和第一损失函数确定训练数据集的第一损失值;对每个长问答文本进行拆分处理,以得到多个短问答文本;基于第二损失函数和全部的短问答文本确定训练数据集的第二损失值;将多个答句输入至编码器和对抗网络,以通过编码器的输出、对抗网络的输出和第三损失函数确定训练数据集的第三损失值;根据第一损失值、第二损失值和第三损失值确定训练数据集的总损失值;根据总损失值调整权重系数,直至问答检索模型训练完成,提高模型性能和后续问答检索的准确度。

    一种用于获取威胁情报数据模型的方法、介质及电子设备

    公开(公告)号:CN117114009A

    公开(公告)日:2023-11-24

    申请号:CN202311130569.5

    申请日:2023-09-01

    Inventor: 郭丽 李益洲 李娇

    Abstract: 本申请实施例提供一种用于获取威胁情报数据模型的方法、介质及电子设备,所述方法包括:获取与威胁情报数据对应的关键词词典;通过对BERT模型进行基于知识增强预训练和常规预训练的交替训练,得到用于威胁情报处理BERT模型,其中,所述知识增强预训练的样本数据是采用目标字符掩码令牌替换预训练数据集和验证集中的目标词语,所述目标词语是所述预训练数据集和验证集中包括的所述关键词词典中的词语,所述常规预训练的样本数据是利用目标字符掩码令牌替换所述预训练数据集和所述验证集中的相关字词得到的。本申请的实施例可以有效缓解BERT在训练的过程中由于过度关注专业词汇而导致的模型对文本语义理解能力下降的问题。

    一种获取APT多关系预测模型的方法、关系预测方法及装置

    公开(公告)号:CN117319020A

    公开(公告)日:2023-12-29

    申请号:CN202311230430.8

    申请日:2023-09-21

    Inventor: 杨潇 李高磊 李娇

    Abstract: 本申请实施例提供一种获取APT多关系预测模型的方法、关系预测方法及装置,所述方法包括:收集APT攻击报告或者相关日志组成原始报告信息集合;将所述原始报告信息集合转换为图结构;重复以下过程,直至对图神经网络的训练过程结束,得到APT多关系预测模型:基于所述图结构和所述图神经网络进行多边关系预测,得到以各实体为起点的多条路径以及每条路径的关系类型;计算与所述多条路径和所述关系类型对应的损失值,并根据所述损失值调整所述图神经网络的参数。采用本申请实施例能推测出实体间的多关系(即多个实体间存在的连接关系),这种新型APT实体多关系预测方案可根据APT实体的特征预测出所有潜在的关联实体,可以有效解决以上不足。

    网络安全本体的构建方法、装置、电子设备及存储介质

    公开(公告)号:CN117014207A

    公开(公告)日:2023-11-07

    申请号:CN202310998264.X

    申请日:2023-08-08

    Abstract: 本申请实施例提供一种网络安全本体的构建方法、装置、电子设备及存储介质,该方法包括:获取与网络安全本体的构建需求对应的网络安全数据,其中,网络安全数据至少包括结构化网络安全数据和非结构化网络安全数据;根据结构化网络安全数据,构建与结构化网络安全数据对应的初始多叉树;根据非结构化网络安全数据对初始多叉树进行更新,得到更新后的目标多叉树;根据目标多叉树,生成与网络安全本体的构建需求对应的网络安全本体文件,克服现有技术需要人工进行构建,以及处理数据来源单一,处理数据格式适配性差的问题,提高了生成本体文件的效率。

    一种获取实体识别模型的方法、识别实体的方法及装置

    公开(公告)号:CN117421423A

    公开(公告)日:2024-01-19

    申请号:CN202310884491.X

    申请日:2023-07-18

    Inventor: 郭丽 李益洲 李娇

    Abstract: 本申请实施例提供一种获取实体识别模型的方法、识别实体的方法及装置,该方法包括:获取针对至少一条训练语句的实体标注数据,其中,所述至少一条训练语句为中文威胁情报数据;根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,以完成对所述实体识别模型的训练得到目标实体识别模型,其中,所述实体识别模型被配置为至少通过挖掘实体内部规律从任一条训练语句中找到各实体并得到各实体类别,所述实体内部规律是通过分析相应实体内的各字符获取的。本申请的一些实施例将实体内部规律挖掘模块融合到中文威胁情报的实体识别模型中,该模块用于捕获每个实体内部的潜在的命名规律,从而更好的进行实体类型的预测。

Patent Agency Ranking