-
公开(公告)号:CN115022049B
公开(公告)日:2024-05-14
申请号:CN202210634083.4
申请日:2022-06-06
Applicant: 哈尔滨工业大学
Inventor: 刘立坤 , 余翔湛 , 史建焘 , 车佳臻 , 张晓慧 , 葛蒙蒙 , 苗钧重 , 刘凡 , 李精卫 , 韦贤葵 , 石开宇 , 郭明昊 , 冯帅 , 赵跃 , 宋赟祖 , 王久金
IPC: H04L9/40 , H04L41/142 , H04L41/16 , G06F18/22 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/084
Abstract: 本发明提出一种基于计算马氏距离的分布外网络流量数据检测方法,属于数据检测技术领域。包括以下步骤:S1.原始网络流量的预处理和分类模型的预训练;S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;S3.计算新样本x与最相似类别实例的马氏距离;S4.设定分布外数据阈值,分布外数据阈值采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。判断是否属于分布外数据。本发明提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。
-
公开(公告)号:CN112084451B
公开(公告)日:2022-09-30
申请号:CN202010972271.9
申请日:2020-09-16
Applicant: 哈尔滨工业大学
IPC: G06F16/958 , G06F40/14 , G06V30/412 , G06V30/414
Abstract: 本发明是一种基于视觉分块的网页LOGO提取系统及方法,属于计算机网络领域,尤其涉及网页LOGO提取及视觉识别分析技术,目的是为解决网页视觉识别分析不稳定,准确率不高,实际应用效果不好等问题;本发明包括页面数据提取模块、分隔符探测模块和页面布局重构模块各模块之间呈递进逻辑连接,通过页面数据提取模块用于所需特征量的提取;分隔符探测模块负责分隔符的添加以及规则化分割;页面布局重构模块用于将页面内容重新布局重构,使得网页视觉识别率得到提高,该方法提取更为健壮的视觉特征,有更好的鲁棒性,同时具有更高的准确度。
-
公开(公告)号:CN114679606A
公开(公告)日:2022-06-28
申请号:CN202210354186.5
申请日:2022-04-02
Applicant: 哈尔滨工业大学
Inventor: 余翔湛 , 刘立坤 , 史建焘 , 李精卫 , 葛蒙蒙 , 张晓慧 , 苗钧重 , 刘凡 , 韦贤葵 , 石开宇 , 王久金 , 冯帅 , 赵跃 , 宋赟祖 , 郭明昊 , 车佳臻
IPC: H04N21/234 , H04N21/44 , G06K9/62
Abstract: 本发明提出一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质,属于日志异常检测技术领域。包括以下步骤:步骤一、捕获视频流量,对视频流量进行预处理;步骤二、获取经过预处理视频流量的Burst特征和Burst序列对应的时序特征;步骤三、将Burst特征和时序特征提取后的数据作为单个视频的指纹,对数据进行分类从而识别视频流量。本发明主要针对于基于DASH协议构建的视频平台传输的视频流进行视频识别,通过每个视频独有的Burst特征进行二次特征提取,分析Brst序列中的时序特征。并创建LightGBM模型对单个视频的时序特征进行识别。解决了无法细粒度的对视频流量进行识别的技术问题。
-
公开(公告)号:CN113065419B
公开(公告)日:2022-05-24
申请号:CN202110291361.6
申请日:2021-03-18
Applicant: 哈尔滨工业大学
IPC: G06V30/41 , G06V30/418 , G06V30/146 , G06V30/19 , G06V10/75 , G06K9/62
Abstract: 本发明提出了一种基于流量高频内容的模式匹配算法及系统,涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。通过建立高频内容集和映射集的自动机,将当前扫描字符通过映射集与高频内容集进行匹配;映射集由高频内容集合中所有字符串的第一个字符去重后构成的集合。当访问自动机节点时,执行快速搜索以确定是否需要对高频内容集进行二次搜索。自动机扫描的过程从左往右扫描,自动机从根节点开始,扫描一个字符时匹配高频内容集的字符串,当扫描字符与高频内容集的字符串匹配时跳过高频内容,因此解决了现有技术中因忽略了流量中重复内容的特征导致的匹配效率低的问题,从而提升匹配效率。
-
公开(公告)号:CN113065419A
公开(公告)日:2021-07-02
申请号:CN202110291361.6
申请日:2021-03-18
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种基于流量高频内容的模式匹配算法及系统,涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。通过建立高频内容集和映射集的自动机,将当前扫描字符通过映射集与高频内容集进行匹配;映射集由高频内容集合中所有字符串的第一个字符去重后构成的集合。当访问自动机节点时,执行快速搜索以确定是否需要对高频内容集进行二次搜索。自动机扫描的过程从左往右扫描,自动机从根节点开始,扫描一个字符时匹配高频内容集的字符串,当扫描字符与高频内容集的字符串匹配时跳过高频内容,因此解决了现有技术中因忽略了流量中重复内容的特征导致的匹配效率低的问题,从而提升匹配效率。
-
公开(公告)号:CN116016365B
公开(公告)日:2023-09-19
申请号:CN202310019534.8
申请日:2023-01-06
Applicant: 哈尔滨工业大学
IPC: H04L47/2483 , H04L9/40 , G06F16/958 , G06F16/957 , G06F16/955 , G06N20/00 , G06F18/24 , G06F18/2413
Abstract: 本发明提出一种加密流量下基于数据包长度信息的网页识别方法,属于网页识别技术领域。包括以下步骤:S1.模拟用户的浏览行为,访问不同网站,获取加密流量数据;S2.对加密流量数据进行处理;S3.提取加密流量数据特征,保存为网页指纹;S4.将网页指纹进行分类,建立加密流量数据特征与网页指纹的对应关系;S5.构建网页指纹识别模型;S6.将加密流量数据特征和网页的真实ID作为网页指纹识别模型的输入,输出网页的预测ID。解决现有技术中存在的无法细粒度的识别网页的技术问题。本发明将数据包长度信息作为一维特征的预处理算法,可以解决网页识别问题中的特征提取时间复杂性问题,并且训练时间较短,时间复杂度很低。
-
公开(公告)号:CN114679606B
公开(公告)日:2023-05-09
申请号:CN202210354186.5
申请日:2022-04-02
Applicant: 哈尔滨工业大学
Inventor: 余翔湛 , 刘立坤 , 史建焘 , 李精卫 , 葛蒙蒙 , 张晓慧 , 苗钧重 , 刘凡 , 韦贤葵 , 石开宇 , 王久金 , 冯帅 , 赵跃 , 宋赟祖 , 郭明昊 , 车佳臻
IPC: H04N21/234 , H04N21/44 , G06V10/764 , G06V10/774
Abstract: 本发明提出一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质,属于日志异常检测技术领域。包括以下步骤:步骤一、捕获视频流量,对视频流量进行预处理;步骤二、获取经过预处理视频流量的Burst特征和Burst序列对应的时序特征;步骤三、将Burst特征和时序特征提取后的数据作为单个视频的指纹,对数据进行分类从而识别视频流量。本发明主要针对于基于DASH协议构建的视频平台传输的视频流进行视频识别,通过每个视频独有的Burst特征进行二次特征提取,分析Brst序列中的时序特征。并创建LightGBM模型对单个视频的时序特征进行识别。解决了无法细粒度的对视频流量进行识别的技术问题。
-
公开(公告)号:CN113656073B
公开(公告)日:2022-09-27
申请号:CN202110947992.9
申请日:2021-08-18
Applicant: 哈尔滨工业大学
Abstract: 本发明提出一种大模式集下基于并行调度模式重组方法、计算机及存储介质,属于人工智能技术领域具体包括,首先,对模式集划分为模式子集,选取最优划分模式子集作为结果;其次,利用优化的遗传退火算法将模式子集调度到多核中;再其次,对模式子集进行评估,判断是否需要对运行时间长的子集进行二次重组,最后,根据评估结果,对不满足评估条件的模式子集进行模式重组。本发明能够适应长度分布不同的多种模式集特征,细粒度地对模式集划分、调度、评估与重组。解决现有技术中存在的检测预定义模式集运行时间长的技术问题。实现了检测预定义模式集运行时间短的效果。
-
公开(公告)号:CN112804251A
公开(公告)日:2021-05-14
申请号:CN202110136774.7
申请日:2021-02-01
Applicant: 哈尔滨工业大学
IPC: H04L29/06
Abstract: 一种基于userId的Android应用流量过滤方法与系统,属于网络安全技术领域。本发明包括以下步骤:步骤一、从Android设备中读取指定应用的userId;步骤二、使用iptables给指定userId打上流标签;步骤三、编写iptables规则,将带有所述流标签的userId的INPUT、OUTPUT数据包放入NFLOG消息池中,并为所述NFLOG消息池指定一个标号;步骤四、从所述NFLOG消息池中获取目标userId对应的纯净流量集。本发明解决了应用流量混杂在一个网络中导致应用网络流量无法进行准确分析的问题。
-
公开(公告)号:CN112084451A
公开(公告)日:2020-12-15
申请号:CN202010972271.9
申请日:2020-09-16
Applicant: 哈尔滨工业大学
IPC: G06F16/958 , G06F40/14 , G06K9/00
Abstract: 本发明是一种基于视觉分块的网页LOGO提取系统及方法,属于计算机网络领域,尤其涉及网页LOGO提取及视觉识别分析技术,目的是为解决网页视觉识别分析不稳定,准确率不高,实际应用效果不好等问题;本发明包括页面数据提取模块、分隔符探测模块和页面布局重构模块各模块之间呈递进逻辑连接,通过页面数据提取模块用于所需特征量的提取;分隔符探测模块负责分隔符的添加以及规则化分割;页面布局重构模块用于将页面内容重新布局重构,使得网页视觉识别率得到提高,该方法提取更为健壮的视觉特征,有更好的鲁棒性,同时具有更高的准确度。
-
-
-
-
-
-
-
-
-