-
公开(公告)号:CN118585608A
公开(公告)日:2024-09-03
申请号:CN202410750428.1
申请日:2024-06-12
Applicant: 国家计算机网络与信息安全管理中心 , 烟台中科网络技术研究所
IPC: G06F16/33 , G06F16/35 , G06F18/2415 , G06F40/30 , G06F9/50
Abstract: 本发明涉及人工智能进行自然语言处理技术领域,尤其涉及一种短文本智能分析与分类优化方法,包括以下步骤:S1:对短文本信息进行初步处理,得到初步处理后的短文本信息;S2:引入均衡负载数据分片算法将初步处理后的短文本信息进行数据分片并存储至多个节点k,利用分布式分散处理算法实现数据并行处理;S3:引入语境深度理解算法,优化短文本信息分类的准确率;S4:各节点k利用优化自然语言处理算法对分得的短文本分片数据进行智能分析,并确定其所属类别;S5:汇总并分析全部节点k上的分类结果,得到短文本信息的最终分析与分类结果,本方法提高了短文本信息处理分析与分类中的效率及准确率。
-
公开(公告)号:CN115292571B
公开(公告)日:2023-03-28
申请号:CN202210942548.2
申请日:2022-08-08
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/215 , G06F8/61 , G06F9/445 , G06F17/18 , G06V10/74 , G06V10/764
Abstract: 本发明公开了一种App数据采集方法及系统,所述方法包括对群控平台中所有应用软件进行遍历采集,得到群控平台应用软件信息;对群控平台应用软件中的内容进行深度优先遍历采集,并将获取的内容进行整合;对整合后的采集内容进行判断清洗,获得最终应用软件通用内容。通过采用改进的深度优先遍历算法完成采集工作,保证了采集数据的全面性,同时提高了采集效率。
-
公开(公告)号:CN115292571A
公开(公告)日:2022-11-04
申请号:CN202210942548.2
申请日:2022-08-08
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/215 , G06F8/61 , G06F9/445 , G06F17/18 , G06V10/74 , G06V10/764
Abstract: 本发明公开了一种App数据采集方法及系统,所述方法包括对群控平台中所有应用软件进行遍历采集,得到群控平台应用软件信息;对群控平台应用软件中的内容进行深度优先遍历采集,并将获取的内容进行整合;对整合后的采集内容进行判断清洗,获得最终应用软件通用内容。通过采用改进的深度优先遍历算法完成采集工作,保证了采集数据的全面性,同时提高了采集效率。
-
公开(公告)号:CN115495573A
公开(公告)日:2022-12-20
申请号:CN202210935919.4
申请日:2022-08-04
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种特定业务类型App的高效准确分类方法,首先构建App社交功能属性体系表,针对不同的功能属性构建关键词过滤规则,通过静态反编译的方式获取功能按钮进行规则匹配,进行细粒度核验,考虑到细粒度核验的速度慢准确率高的特点,将部分细粒度核验的结果人工校验后作为训练数据,以App简介作为输入数据进行深度学习模型训练,实现粗粒度核验,达到快速大批量核验。对核验结果进行人工校对,不断优化整个核验流程。本方法用于App类别判定工作,能够快速、准确地从海量App中筛选出特定业务类型对象。
-
公开(公告)号:CN118568487A
公开(公告)日:2024-08-30
申请号:CN202410548464.X
申请日:2024-05-06
Applicant: 国家计算机网络与信息安全管理中心 , 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/25 , G06F18/2431 , G06N3/042
Abstract: 本申请实施例提供一种多模态轻量级动态知识增强方法、装置及存储介质,所述方法包括:基于图像小样本集的向量表征和文本小样本集的向量表征,以多模态视觉码书的形式构建图像小样本知识库和文本小样本知识库;基于单模态搜索的方式从所述图像小样本知识库或所述文本小样本知识库中确定待融合表征的跨模态表征,融合所述待融合表征和所述跨模态表征,得到知识增强后的融合表征。本申请实施例提供的多模态轻量级动态知识增强方法、装置及存储介质,在现有大规模预训练多模态模型的强大表征学习基础上,融合罕见且细粒度的跨模态表征信息,以此提高原始表征的质量,并显著提升对特定信息的检索效率。
-
公开(公告)号:CN116127964A
公开(公告)日:2023-05-16
申请号:CN202211600947.7
申请日:2022-12-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司 , 国家计算机网络与信息安全管理中心天津分中心
IPC: G06F40/284 , G06F40/30 , G06F16/35 , H04L9/40 , H04W12/12
Abstract: 本发明公开了一种融合传播关系的诈骗信息的检测方法。该方法包括:获取第一信息组、诈骗账号库以及正常账号库,其中第一信息组中的每一个信息包括文本信息和发信账号;根据诈骗账号库和正常账号库从第一信息组中确定第二信息组,其中第二信息组中的每一个信息的发信账号在诈骗账号库和正常账号库中都不存在;根据第二信息组得到多个目标信息组,其中每一个目标信息组中的第一发信账号与第二发信账号的相似文本信息的数量大于第一阈值;计算每一个目标信息组的诈骗权重值;在目标信息组的诈骗权重值大于第二阈值的情况下,将目标信息组中的每一个文本信息确定为诈骗信息。本发明解决了对大量诈骗信息进行检测时,处理效率低的技术问题。
-
公开(公告)号:CN119885253A
公开(公告)日:2025-04-25
申请号:CN202411818233.2
申请日:2024-12-11
Applicant: 国家计算机网络与信息安全管理中心 , 北京邮电大学
IPC: G06F21/62 , G06F21/60 , G06F18/241 , G06F18/20 , G06N3/08
Abstract: 本申请提供一种数据分类方法、装置、设备及存储介质,该方法包括:获取待处理数据;将所述待处理数据输入数据分类模型中,得到分类数据和所述分类数据的类别;所述数据分类模型为深度学习模型;根据所述分类数据的类别,基于自然语言处理技术和预设识别规则处理所述分类数据,确定敏感信息。本申请实现了对数据的精确分类,并能够识别和处理敏感信息,增强了数据安全性。
-
公开(公告)号:CN119884071A
公开(公告)日:2025-04-25
申请号:CN202411818236.6
申请日:2024-12-11
Applicant: 国家计算机网络与信息安全管理中心 , 北京邮电大学
Abstract: 本申请提供一种用于在分布式环境中管理数据库的方法及相关设备。该方法包括:执行数据库实例的探测任务,以探测到目标数据库实例,获取所述目标数据库实例的物理存储位置和配置信息,基于所述物理存储位置和配置信息,获取所述目标数据库实例对应的数据库的第一特征信息,获取预设的数据库中的第二特征信息,确定所述第一特征信息与所述第二特征信息是否匹配,响应于所述第一特征信息和所述第二特征信息匹配,获取所述数据库的类型和版本,以管理所述数据库。通过上述方法能够在分布式的复杂环境中,自动化地识别和定位数据库实例及其存储位置,减少人工干预,提高数据库探测的效率与准确性。
-
公开(公告)号:CN119598054A
公开(公告)日:2025-03-11
申请号:CN202510143768.2
申请日:2025-02-10
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/958 , G06V30/19
Abstract: 本发明涉及人工智能技术领域,提供一种网站类型识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别网站的网址,并基于所述待识别网站的网址,获取所述待识别网站内所有的待分类图像;基于特征提取模型,对各待分类图像进行特征提取,得到所述各待分类图像的图像特征;基于文本特征库中的各文本特征和所述各待分类图像的图像特征,确定所述各待分类图像的类别;基于所述各待分类图像的类别,确定所述待识别网站的类型。本发明通过结合图像特征和文本特征,实现了基于图像和文本描述的多模态特征的检索式分类判断,可以有效提高网站类型识别的准确率。
-
公开(公告)号:CN118520929B
公开(公告)日:2024-10-29
申请号:CN202411003497.2
申请日:2024-07-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06N3/09 , G06N3/0455 , G06F40/194
Abstract: 本发明提供一种文本相似度确定模型的训练方法及文本相似度计算方法,属于计算机技术领域,该训练方法包括:获取第一数据集和第二数据集;第一数据集中包括至少一个短文本数据对;第二数据集中包括至少一个目标文本数据对,目标文本数据对中的两个目标文本数据至少一个为长文本数据;基于句向量对比模型,获取第二数据集中各目标文本数据的关键表述;句向量对比模型是基于第一数据集和第一损失函数对第一预训练模型训练得到的;基于各关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似性确定模型。通过在判定过程中引入短文本和长文本,提升了文本相似度确定模型输出结果的准确性。
-
-
-
-
-
-
-
-
-