-
公开(公告)号:CN114021627B
公开(公告)日:2025-04-22
申请号:CN202111239649.5
申请日:2021-10-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F18/25 , G06F18/2411 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种融合LSTM与场景规则知识的异常轨迹检测方法及装置,包括依据目标轨迹构建时序序列;将时序序列输入LSTM网络,获取的目标轨迹中每个时刻的位置隐向量,并基于各位置隐向量进行注意力机制计算,得到目标轨迹表示向量;拼接目标轨迹表示向量与设定场景规则的向量,并对拼接后向量进行分类,得到异常轨迹检测结果。本发明采用的融合方法除了使用向量表示轨迹之外,还加入了可调整的应用场景规则,解决单一方法的不足,具有更好的迁移性。
-
公开(公告)号:CN114626425B
公开(公告)日:2024-11-08
申请号:CN202011456860.8
申请日:2020-12-10
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F18/22 , G06F40/30 , G06F40/284 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/084
Abstract: 本发明提供一种面向噪声文本的多视角交互匹配方法及电子装置,包括对两段待匹配噪声文本分别编码,得到两段编码向量序列,并向两段编码向量序列的每个编码向量中加入位置信息;对加入位置信息的两段编码向量序列进行内部交互,分别得到两段内部交互结果;对两段内部交互结果进行外部交互,分别构建两个双向的噪声文本交互矩阵;拼接两个噪声文本交互矩阵,判断两个待匹配噪声文本是否匹配。本发明采用注意力机制捕获噪声文本之间的双向匹配模式,受噪声文本中句子的逻辑顺序影响较小,增加文本有效语义单词影响,提高模型时间效率及噪声文本匹配效果,避免传递匹配问题。
-
公开(公告)号:CN118520929A
公开(公告)日:2024-08-20
申请号:CN202411003497.2
申请日:2024-07-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06N3/09 , G06N3/0455 , G06F40/194
Abstract: 本发明提供一种文本相似度确定模型的训练方法及文本相似度计算方法,属于计算机技术领域,该训练方法包括:获取第一数据集和第二数据集;第一数据集中包括至少一个短文本数据对;第二数据集中包括至少一个目标文本数据对,目标文本数据对中的两个目标文本数据至少一个为长文本数据;基于句向量对比模型,获取第二数据集中各目标文本数据的关键表述;句向量对比模型是基于第一数据集和第一损失函数对第一预训练模型训练得到的;基于各关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似性确定模型。通过在判定过程中引入短文本和长文本,提升了文本相似度确定模型输出结果的准确性。
-
公开(公告)号:CN114817516B
公开(公告)日:2024-08-09
申请号:CN202210448769.4
申请日:2022-04-26
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/335 , G06F16/35 , G06F16/951 , G06F40/242 , G06F40/279 , G06F40/30 , G06N3/088
Abstract: 本发明涉及一种零样本条件下基于逆向匹配的画像映射方法,包括在数据特征标签和画像标签两个不同体系间建构双相关文本语料库,使用逆向匹配对语料库进行筛选修正;通过人工标注构建分类语料库,并训练模型建立画像体系间的映射关系;采用基于持续响应衰减的更新机制,并结合标签历史状态对时序变化的画像相关更新数据进行修正。本方法从扩展数据的角度出发,采用基于逆向匹配的文本库构建方法,引入与原始标签相关的外部文本数据扩展并增强标签的语义表达,再引入与用户画像相关的外部数据进行标注建立扩展标签和标注数据之间的联系,从而挖掘出原始特征标签隐含的丰富含义,达到从少量标签序列中计算目标画像的目的。
-
公开(公告)号:CN115034286B
公开(公告)日:2024-07-02
申请号:CN202210435266.3
申请日:2022-04-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/24 , G06F18/214 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于自适应损失函数的异常用户识别方法和装置,其中,该方法包括:获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;进行数据预处理得到训练数据集;基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。本发明解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
-
公开(公告)号:CN114978585B
公开(公告)日:2024-02-27
申请号:CN202210380490.7
申请日:2022-04-12
Applicant: 国家计算机网络与信息安全管理中心 , 北京赋乐科技有限公司
IPC: H04L9/40 , G06F18/2135 , G06F18/243 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08 , G06N20/20
Abstract: 本公开的实施例提供了基于流量特征的深度学习对称加密协议识别方法、装置、设备和计算机可读存储介质。所述方法包括获取网络流量数据;对所述网络流量数据进行预处理,得到对称加密流量;基于主成分分析‑皮尔森系数法流量识别模型和基于注意力机制的CNN‑LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。以此方式,实现了对对称加密协议的高效识别。
-
公开(公告)号:CN116821747A
公开(公告)日:2023-09-29
申请号:CN202310439834.1
申请日:2023-04-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/24 , G06F18/25 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于图文多模态信息融合的互联网不良应用分类识别方法,针对不良应用具有识别效果佳的优点。互联网不良应用分类识别方法包括:收集网站应用,并对网络应用进行类别标注;提取网站应用的应用名称并基于此构建第一向量;对网络应用进行沙盒运行,以获取网络应用的访问信息以及运行界面截图;基于访问信息构建第二向量;从运行界面截图中提取有效文本字符并基于此构建第三向量;融合第一向量、第二向量、第三向量,以获得融合向量;将融合向量作为输入,训练互联网不良应用分类识别模型,互联网不良应用分类识别模型包括全连接层、Softmax层、损失函数;基于训练完成的互联网不良应用分类识别模型对待识别的网站应用进行分类识别。
-
公开(公告)号:CN112836493B
公开(公告)日:2023-03-14
申请号:CN202011404000.X
申请日:2020-12-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/226 , G06F40/284 , G06F16/33
Abstract: 本发明公开了一种转写文本校对方法及存储介质,包括,基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。本发明方法基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和语义的合理性。
-
公开(公告)号:CN112084373B
公开(公告)日:2022-06-03
申请号:CN202010778910.8
申请日:2020-08-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/901 , G06F40/151 , G06Q50/00 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于图嵌入的多源异构网络用户对齐方法,其特征在于:1)通过用户名和社会角色计算用户属性的相似度;2)通过随机游走算法获得异构网络的节点序列,分析节点之间的相互关系;3)利用嵌入算法,对节点序列计算得到网络的嵌入表示;4)根据用户的属性相似度以及结构特征,训练多层神经网络对齐用户。本发明所公开的基于图嵌入的多源异构网络用户对齐方法可用于在线社交网络的用户对齐,在推荐系统、人物画像补全等多个领域具有重要应用,算法的计算复杂度低,可在网络中快速对齐相同用户,对真实数据适用性强。
-
公开(公告)号:CN114330307A
公开(公告)日:2022-04-12
申请号:CN202110483554.1
申请日:2021-04-30
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/242 , G06F40/284 , G06F40/295
Abstract: 本发明公开了一种基于限定领域的分词方法及系统,方法包括:对限定领域的数据进行预处理,对预处理后得到的数据中的命名实体进行识别,并抽取出数据中的实体词汇,得到命名实体识别结果;基于预处理后得到的数据计算限定领域语料中的特征信息,并根据得到的特征信息构建新词发现模型,利用新词发现模型对语料库中的新词进行识别,以获取新词数据组;利用所述命名实体识别结果及常用词词典对获取的新词数据组进行过滤,排除掉常用词汇和实体词汇,以获取并确认敏感词,并基于确认后的敏感词建立敏感词库;结合敏感词库中获取的敏感词信息和命名实体识别结果进行分词。解决了现有技术中在限定领域中分词准确性较差的技术问题。
-
-
-
-
-
-
-
-
-