一种用于获取威胁情报数据模型的方法、介质及电子设备

    公开(公告)号:CN117114009A

    公开(公告)日:2023-11-24

    申请号:CN202311130569.5

    申请日:2023-09-01

    Inventor: 郭丽 李益洲 李娇

    Abstract: 本申请实施例提供一种用于获取威胁情报数据模型的方法、介质及电子设备,所述方法包括:获取与威胁情报数据对应的关键词词典;通过对BERT模型进行基于知识增强预训练和常规预训练的交替训练,得到用于威胁情报处理BERT模型,其中,所述知识增强预训练的样本数据是采用目标字符掩码令牌替换预训练数据集和验证集中的目标词语,所述目标词语是所述预训练数据集和验证集中包括的所述关键词词典中的词语,所述常规预训练的样本数据是利用目标字符掩码令牌替换所述预训练数据集和所述验证集中的相关字词得到的。本申请的实施例可以有效缓解BERT在训练的过程中由于过度关注专业词汇而导致的模型对文本语义理解能力下降的问题。

    一种获取实体识别模型的方法、识别实体的方法及装置

    公开(公告)号:CN117421423A

    公开(公告)日:2024-01-19

    申请号:CN202310884491.X

    申请日:2023-07-18

    Inventor: 郭丽 李益洲 李娇

    Abstract: 本申请实施例提供一种获取实体识别模型的方法、识别实体的方法及装置,该方法包括:获取针对至少一条训练语句的实体标注数据,其中,所述至少一条训练语句为中文威胁情报数据;根据所述至少一条训练语句和所述标注数据对实体识别模型进行训练,以完成对所述实体识别模型的训练得到目标实体识别模型,其中,所述实体识别模型被配置为至少通过挖掘实体内部规律从任一条训练语句中找到各实体并得到各实体类别,所述实体内部规律是通过分析相应实体内的各字符获取的。本申请的一些实施例将实体内部规律挖掘模块融合到中文威胁情报的实体识别模型中,该模块用于捕获每个实体内部的潜在的命名规律,从而更好的进行实体类型的预测。

    模型训练方法、答案确定方法、电子设备及存储介质

    公开(公告)号:CN119807371A

    公开(公告)日:2025-04-11

    申请号:CN202411883259.5

    申请日:2024-12-19

    Inventor: 李娇

    Abstract: 本申请提供一种模型训练方法、答案确定方法、电子设备及存储介质,涉及问答技术领域。方法包括:对构建的初始知识图谱嵌入模型和初始问题嵌入模型进行联合训练,得到目标知识图谱嵌入模型和目标问题嵌入模型;基于样本问题数据,确定查询意图向量;根据查询意图向量和目标知识图谱嵌入模型,对初始推理模型进行训练,得到目标推理模型。通过目标问题嵌入模型,对用户输入的目标问题信息进行分析处理,得到目标上下文向量;根据目标上下文向量,确定目标问题信息对应的目标意图查询向量;根据目标推理模型,基于目标查询向量在目标知识图谱嵌入模型确定目标节点路径;对目标节点路径进行语言转换处理,得到目标问题信息对应的答案信息。

    文本召回方法、装置、计算设备及机器可读存储介质

    公开(公告)号:CN117786045A

    公开(公告)日:2024-03-29

    申请号:CN202311765523.0

    申请日:2023-12-20

    Abstract: 本申请实施例公开了一种文本召回方法、装置、计算设备及机器可读存储介质,属于数据处理领域。文本召回方法包括:根据目标文本和目标文本的文本长度,确定第一数量的关键词;根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。在限制关键词数量的基础上,基于每个关键词的重要性,得到目标文本对应的向量映射。通过向量映射进行文本召回,能够得到高准确性的文本召回结果。

Patent Agency Ranking