基于预训练语言模型联邦分割学习的网络入侵检测方法

    公开(公告)号:CN119766574A

    公开(公告)日:2025-04-04

    申请号:CN202510199342.9

    申请日:2025-02-21

    Abstract: 针对网络入侵检测系统中隐私保护与攻击识别的双重需求,本发明提出了一种基于预训练语言模型联邦分割学习的网络入侵检测方法。对于攻击检测中面临的流量特征提取困难、边缘设备算力受限、以及分布式节点间数据隐私壁垒等挑战,本方法融合联邦学习的隐私保护机制与分割学习的计算卸载优势,构建面向流量特征分析的预训练语言模型学习架构。该方法通过分层分割策略将预训练语言模型解耦为边缘侧轻量化模块与云端深度推理模块,通过基于多头注意力机制的联邦聚合实现全局模型稳定性与本地个性化的平衡优化。边缘侧引入对抗增强机制,将预训练语言模型的特征提取能力与生成对抗网络的动态博弈相结合,通过对抗样本重构提升模型对复杂网络攻击的泛化能力。

    基于课程学习的时序知识图谱嵌入模型的知识蒸馏方法

    公开(公告)号:CN118297181A

    公开(公告)日:2024-07-05

    申请号:CN202410388600.3

    申请日:2024-03-31

    Inventor: 戴远飞 张斌

    Abstract: 一种基于课程学习的时序知识图谱嵌入模型的知识蒸馏方法,步骤包括(1)训练三个不同的高维TKGE教师模型。(2)学生模型的输出与真实标签交叉熵,得到硬标签损失。(3)将训练好的教师模型指导学生模型,优化软标签损失。(4)通过自适应注意力机制训练一个senior模型。(5)使用可学习的课程温度来动态优化和引导知识蒸馏过程,得到最终的junior模型。本发明从高维模型中蒸馏出低维模型,该框架适用于大多数现有的TKGE模型。本发明利用课程学习,并引入了自适应注意力机制,提出了一个两阶段过程,引导学生从容易到困难地学习教师教授的知识。

    基于噪声学生自训练的半监督实体对齐方法

    公开(公告)号:CN117077673A

    公开(公告)日:2023-11-17

    申请号:CN202310879544.9

    申请日:2023-07-17

    Inventor: 戴远飞 刘奕赫

    Abstract: 一种基于噪声学生自训练的半监督实体对齐方法,在噪声学生模型框架下实施如下步骤:首先,使用已标注对齐的实体对来训练了一个实体对齐模型,把该实体对齐模型作为老师模型;使用训练后的老师模型预测得到的对齐实体对;然后,以已标注对齐的实体对作为标记的数据,以预测得到的对齐实体对作为伪标记的数据,将标记的数据和伪标记的数据都作为训练样本用于训练学生模型;最后,训练得到新的学生模型作为新的老师模型来预测潜在的对齐实体对,得到更多的、用来训练新的学生模型的伪标记的数据,直到迭代结束完成训练得到最终模型,这个最终模型作为实体对齐模型用于实体对的对齐。在预测过程中,调整相似度阈值来提高预测效率。

    基于LLM增强半监督学习的加密流量检测方法

    公开(公告)号:CN119544300A

    公开(公告)日:2025-02-28

    申请号:CN202411687585.9

    申请日:2024-11-23

    Abstract: 一种基于LLM增强半监督学习的加密流量检测方法,先在LESS框架下对用于检测加密流量的流量检测模型进行训练;然后用训练完成的流量检测模型对加密流量进行检测。LESS框架的组件包括Prompt编排器、NSSN和LLM优化器。这些组件协同工作,利用有标签和无标签训练集训练检测模型,其中数据集中的每条数据由网络流中数据包的长度值顺序排列构成;Prompt编排器引导LLM生成不同场景下的无标签增强数据;NSSN为增强过的无标签流量数据自动设置伪标签,并借此学习流量检测知识;在SSL损失的指导下,LLM优化器调整LLM的增强策略,以对齐检测模型的半监督训练需求。检测模型的训练步骤包括:LLM预微调;针对LLM增强数据打标;可持续性的需求对齐。

    基于自训练模型的远程监督关系抽取方法

    公开(公告)号:CN117312859A

    公开(公告)日:2023-12-29

    申请号:CN202311374983.0

    申请日:2023-10-23

    Inventor: 戴远飞 刘奕赫

    Abstract: 一种基于自训练模型的远程监督关系抽取方法,对于给定句子中的一对标记实体,采用生物医学关系提取模型提取两个实体之间潜在的生物医学关系。生物医学关系提取模型的构建步骤为:1)采用原始远程监督数据集训练一个基于负向学习的教师关系抽取网络,原始远程监督数据集是生物医学数据集;2)过滤远程监督数据中的噪声数据;3)对高置信度的标签来重标签噪声实例;4)利用重新标注的训练数据训练一个学生网络;5)将学生网络作为一个新的老师网络,迭代训练;6)用最终重新标记的训练数据和正向学习训练得到关系提取模型。本发明的模型缓解了生物医学关系抽取过程中,生物医学数据不足的问题。

    基于LLM增强对比学习的社交网络虚假信息检测方法

    公开(公告)号:CN119577262A

    公开(公告)日:2025-03-07

    申请号:CN202411668977.0

    申请日:2024-11-20

    Abstract: 一种基于LLM增强对比学习的社交网络虚假信息检测方法,该方法在大语言模型LLM辅助的对比学习CL框架下,检测社交网络虚假信息,其步骤包括:S1、数据预处理与Prompt编排:从社交网络抓取原始数据,并进行格式化处理;处理后的数据被输入至Prompt编排器,生成增强数据,以扩展CL模型的训练样本;S2、LLM辅助的特征提取和标签预测:经S1增强后的数据与原始数据配对后输入至CL模型;CL模型提取虚假信息的判别性特征并进行标签预测;训练完成后,CL模型的参数被冻结;在测试阶段,数据被输入CL模型以提取特征,并通过分类器预测标签;S3、联合微调:以CL模型的对比损失引导LLM微调。

    基于自训练模型的远程监督关系抽取方法

    公开(公告)号:CN117312859B

    公开(公告)日:2024-09-10

    申请号:CN202311374983.0

    申请日:2023-10-23

    Inventor: 戴远飞 刘奕赫

    Abstract: 一种基于自训练模型的远程监督关系抽取方法,对于给定句子中的一对标记实体,采用生物医学关系提取模型提取两个实体之间潜在的生物医学关系。生物医学关系提取模型的构建步骤为:1)采用原始远程监督数据集训练一个基于负向学习的教师关系抽取网络,原始远程监督数据集是生物医学数据集;2)过滤远程监督数据中的噪声数据;3)对高置信度的标签来重标签噪声实例;4)利用重新标注的训练数据训练一个学生网络;5)将学生网络作为一个新的老师网络,迭代训练;6)用最终重新标记的训练数据和正向学习训练得到关系提取模型。本发明的模型缓解了生物医学关系抽取过程中,生物医学数据不足的问题。

Patent Agency Ranking