-
公开(公告)号:CN115309899A
公开(公告)日:2022-11-08
申请号:CN202210949186.X
申请日:2022-08-09
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06K9/62 , G06F40/284
Abstract: 本发明公开了一种文本中特定内容识别存储方法及系统,属于文特定词识别的技术领域,其方法包括生成特定词库和规则库;获取待识别的文本集合;提取当前特定文本数据集中的新特定词,得到新特定词集合;将需要训练的词组输入BERT模型;从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别的问题。
-
公开(公告)号:CN115292571A
公开(公告)日:2022-11-04
申请号:CN202210942548.2
申请日:2022-08-08
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/215 , G06F8/61 , G06F9/445 , G06F17/18 , G06V10/74 , G06V10/764
Abstract: 本发明公开了一种App数据采集方法及系统,所述方法包括对群控平台中所有应用软件进行遍历采集,得到群控平台应用软件信息;对群控平台应用软件中的内容进行深度优先遍历采集,并将获取的内容进行整合;对整合后的采集内容进行判断清洗,获得最终应用软件通用内容。通过采用改进的深度优先遍历算法完成采集工作,保证了采集数据的全面性,同时提高了采集效率。
-
公开(公告)号:CN115034286B
公开(公告)日:2024-07-02
申请号:CN202210435266.3
申请日:2022-04-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/24 , G06F18/214 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于自适应损失函数的异常用户识别方法和装置,其中,该方法包括:获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;进行数据预处理得到训练数据集;基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。本发明解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
-
-
公开(公告)号:CN115495573A
公开(公告)日:2022-12-20
申请号:CN202210935919.4
申请日:2022-08-04
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种特定业务类型App的高效准确分类方法,首先构建App社交功能属性体系表,针对不同的功能属性构建关键词过滤规则,通过静态反编译的方式获取功能按钮进行规则匹配,进行细粒度核验,考虑到细粒度核验的速度慢准确率高的特点,将部分细粒度核验的结果人工校验后作为训练数据,以App简介作为输入数据进行深度学习模型训练,实现粗粒度核验,达到快速大批量核验。对核验结果进行人工校对,不断优化整个核验流程。本方法用于App类别判定工作,能够快速、准确地从海量App中筛选出特定业务类型对象。
-
-
-
-