-
公开(公告)号:CN118657173A
公开(公告)日:2024-09-17
申请号:CN202411136019.9
申请日:2024-08-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/042 , G06N3/045 , G06N3/0495 , G06N3/096 , G06N3/084 , G06F18/241 , G06F40/284
Abstract: 本发明公开了一种知识蒸馏方法和系统,方法包括:获取教师模型在训练集样本上的输出作为软标记训练集;设计学生模型架构和学生模型与教师模型的层对应关系;将训练集或软标记训练集划分为超批次,进行基于主成分分析的第一轮白盒知识蒸馏;进行基于软标记训练集的第二轮黑盒知识蒸馏;测试学生模型性能。本发明利用主成分分析将隐含层大小和架构不同的教师模型和学生模型相互对应,以完成白盒知识蒸馏的方法,使白盒知识蒸馏能被应用在更多学生模型上,便于进一步提高压缩比。本发明蒸馏方法相对白盒知识蒸馏和黑盒知识蒸馏均具有更好的性能。
-
公开(公告)号:CN118013046A
公开(公告)日:2024-05-10
申请号:CN202410389726.2
申请日:2024-04-02
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/35 , G06F40/295 , G06N5/025 , G06N3/0442 , G06N3/0455 , G06F18/241
Abstract: 本发明提供了一种基于大语言模型的非结构化网络威胁情报抽取方法、系统及介质,该方法包括:利用爬虫技术从开源情报平台实时获取非结构化威胁情报数据;利用数据清洗技术剔除非结构化威胁情报数据中非主要文本内容,得到非结构化的文本情报数据,完成数据初步清洗;利用大语言模型结合Prompt设计实现对非结构化的文本情报数据进行二次处理以及知识提取;利用深度学习模型对经由大语言模型处理的结果进行二次知识抽取;结合两次知识抽取内容进一步删选,得到最终抽取结果。本发明提高了网络威胁情报的准确性和及时性,提高了对复杂多变的网络威胁的识别和分析能力,能够更好地适应特定领域的需求。
-
公开(公告)号:CN117095243B
公开(公告)日:2024-05-07
申请号:CN202311345466.0
申请日:2023-10-18
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V10/764 , H04L9/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06V10/70 , G06V10/74 , G06F18/213 , G06F18/214 , G06F18/22 , G06F18/24 , G06F18/25 , G06F18/20 , G06N3/045 , G06N3/0895 , G06N3/096 , G06N3/084 , G06N3/0985 , G06F123/02
Abstract: 本发明提供一种基于分支融合策略的小样本类增量网络入侵检测方法,包括:步骤一:将采集到的网络流量样本进行拆分处理,处理后的网络流量样本被转化为灰度图像表示;步骤二:将网络流量样本的灰度图像输入到骨干网络ViT中用于自监督模式的预训练以提高特征嵌入的表示能力;步骤三:初始化基础会话分支分类器的投影层参数,用于训练初始的检测分类模型;步骤四:学习每个新会话分支分类器模块,进而使用分支融合策略关联基础会话和新会话分支分类器从而帮助分类器模型完成训练和推理。本发明的有益效果是:本发明方法在不会遗忘已学习攻击类别的情况下,允许以增量、小样本、灵活的方式持续学习新攻击类别,实现保护目标网络系统免受恶意攻击。
-
公开(公告)号:CN116955539A
公开(公告)日:2023-10-27
申请号:CN202311192177.1
申请日:2023-09-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供一种基于思维链推理隐式生成内容合规性判定方法,包括:步骤一:将安全性未知文本X输入大规模语言模型M;步骤二:询问大规模语言模型M安全性未知文本X中的主客体成份,获取主体文本S以及客体文本T;步骤三:询问大规模语言模型M潜在观点,获得潜在观点文本O;步骤四:根据步骤三获得的潜在观点文本O,询问大规模语言模型M安全性未知文本X表达的意图是否符合规范,如果符合规范,输出:安全,否则输出:不安全。本发明的有益效果是:本发明很好的利用大规模语言模型的常识推断能力以及特定领域的专家知识,合理的提示大规模语言模型进行链式推理,逐步地揭示出深层的文本隐藏语义,大幅度提升了系统文本安全检测系统的性能。
-
公开(公告)号:CN116909574A
公开(公告)日:2023-10-20
申请号:CN202311154532.6
申请日:2023-09-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F8/41 , G06F16/33 , G06F40/194
Abstract: 本发明提供了一种检索增强的结构化代码生成系统及方法,该结构化代码生成系统包括检索前处理模块、结构信息提取模块和代码生成融合模块,所述检索前处理模块根据自然语言描述来检索到功能相关的代码片段;所述结构信息提取模块对所述检索前处理模块检索到的代码片段进行结构信息的提取;所述代码生成融合模块将输入的自然语言和代码片段进行融合,完成代码生成任务。本发明的有益效果是:本发明在不改变原有模型规模的条件下,增强其泛化性,提升代码生成的能力。
-
公开(公告)号:CN116318929A
公开(公告)日:2023-06-23
申请号:CN202310206593.6
申请日:2023-03-07
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H04L9/40 , H04L41/0631 , H04L41/16
Abstract: 本发明涉及网络安全技术领域,特别涉及一种基于安全告警数据的攻击策略抽取方法。其方法包括以下步骤:S1.从告警文本中获取攻击者的单步攻击信息;S2.构建攻击活动序列集;S3.构建候选攻击策略;S4.构建攻击策略数据集;S5.预训练;S6.模型训练;S7.攻击策略抽取;S8.人工验证。本方法通过训练模型来判断攻击者的一个候选攻击策略是否为全部的有效攻击步骤,并且这些攻击步骤的组合能完成攻击者的攻击目的;通过这个模型,能够使用枚举候选攻击策略的方式关联出攻击者的全部有效攻击步骤,组成攻击者的攻击策略,而无需定义大量的关联规则;而且在过去的关联经验中未被关联的两个告警也可能被本方法所关联。
-
公开(公告)号:CN115842684B
公开(公告)日:2023-05-12
申请号:CN202310138994.2
申请日:2023-02-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H04L9/40
Abstract: 本申请涉及一种基于MDATA子图匹配的多步攻击检测方法,本申请方法包括:构建预设多步攻击事件的MDATA知识图谱查询图;利用数据查询优化器将MDATA知识图谱查询图分解成若干个子查询图;将若干个子查询图储存至SQM‑Tree辅助的数据结构中,SQM‑Tree辅助的数据结构用于跟踪与合并数据;将若干个子查询图匹配MDATA知识图谱数据图中的多步攻击数据,MDATA知识图谱数据图根据历史告警日志数据和正常系统日志数据创建;输出子查询图与MDATA知识图谱数据图的匹配结果,将匹配结果与SQM‑Tree辅助的数据结构进行对比得到预设多步攻击事件的检测结果,有效提高检测效率。
-
公开(公告)号:CN115842684A
公开(公告)日:2023-03-24
申请号:CN202310138994.2
申请日:2023-02-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H04L9/40
Abstract: 本申请涉及一种基于MDATA子图匹配的多步攻击检测方法,本申请方法包括:构建预设多步攻击事件的MDATA知识图谱查询图;利用数据查询优化器将MDATA知识图谱查询图分解成若干个子查询图;将若干个子查询图储存至SQM‑Tree辅助的数据结构中,SQM‑Tree辅助的数据结构用于跟踪与合并数据;将若干个子查询图匹配MDATA知识图谱数据图中的多步攻击数据,MDATA知识图谱数据图根据历史告警日志数据和正常系统日志数据创建;输出子查询图与MDATA知识图谱数据图的匹配结果,将匹配结果与SQM‑Tree辅助的数据结构进行对比得到预设多步攻击事件的检测结果,有效提高检测效率。
-
公开(公告)号:CN119363485A
公开(公告)日:2025-01-24
申请号:CN202411926248.0
申请日:2024-12-25
Applicant: 鹏城实验室
IPC: H04L9/40
Abstract: 本申请实施例提供攻击数据多维度分析方法、装置、设备和存储介质,涉及网络安全技术领域。该方法对于每个源地址数据列表,基于攻击事件进行ATT&CK对应的攻击阶段映射得到攻击源地址对应的第一攻击分值,按照攻击目的地址对应的唯一资产标识确定资产类别得到攻击源地址的第二攻击分值,在至少一个攻击地址数据库中查找攻击源地址得到攻击源地址的第三攻击分值;根据第一攻击分值、第二攻击分值和第三攻击分值得到每个攻击源地址的分析结果。来对攻击源地址进行简单的攻击量化计算,进而准确指示攻击源地址的风险概率,在较短时间内生成异常源地址的风险分析结果,对潜在危险做出快速响应,减少数据处理的复杂性,提高系统的风险处理效率。
-
公开(公告)号:CN117540730B
公开(公告)日:2024-10-18
申请号:CN202311316116.1
申请日:2023-10-10
Applicant: 鹏城实验室
IPC: G06F40/279 , G06F18/24 , G06F16/33 , G06F40/216
Abstract: 本申请实施例提供了一种文本标注方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取原始文本和原始标注信息;对原始文本分类得到自动标注信息;接收由标注端对原始文本扩展得到同义文本,根据自动标注信息对同义文本筛选的扩展文本;将扩展文本和原始文本拼接得到候选文本,将自动标注信息和原始标注信息拼接得到候选标注信息;获取候选文本中候选标注信息的标注类别数量;根据标注类别数量对候选标注信息筛选得到目标标注信息;获取目标标注信息的标注比例;若标注比例低于预设比例阈值,生成反馈信息至专家系统以接收专家标注信息;将专家标注信息和候选文本组合得到目标文本数据。本申请实施例能够提高文本标注质量。
-
-
-
-
-
-
-
-
-