-
公开(公告)号:CN107340954A
公开(公告)日:2017-11-10
申请号:CN201710532768.7
申请日:2017-07-03
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F3/0484 , G06K9/20
CPC classification number: G06F3/0484 , G06K9/2054 , G06K2209/01
Abstract: 本发明公开了一种信息提取方法和装置,该方法包括:按照预定遍历算法获取预定应用软件APP自动运行过程中所有界面的屏幕快照,并按照预设命名规则为得到的每个屏幕快照确定名称;对获取到的所有屏幕快照进行文字识别,以得到每个屏幕快照对应的文字内容;按照每个屏幕快照的名称将各个屏幕快照对应的文字内容进行拼接,并将拼接后的文档进行保存,以还原预定APP的完整文字内容。本发明的信息提取方法自动获得准确的文字内容,并且适用于多种操作系统的多种APP,解决了现有技术的如下问题:现有信息提取方法无法实现针对多种不同操作系统、不同应用程序的信息提取,而且提取的信息在可读性方面也具有较大的不确定性。
-
公开(公告)号:CN106055633A
公开(公告)日:2016-10-26
申请号:CN201610367978.0
申请日:2016-05-30
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F16/35 , G06K9/6256 , G06K9/6269
Abstract: 本发明提出了一种中文微博主客观句分类方法,所述方法包括:根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集:3‑POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集;根据所述六个特征集,利用支持向量机SVM算法,形成中文微博主客观句分类模型,以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。所述方法不但考虑了中文文本的语言学特点,同时也充分利用微博的个性化特征,使得本文所选取的特征更加接近微博本身的语义描述。
-
公开(公告)号:CN105975526A
公开(公告)日:2016-09-28
申请号:CN201610280958.X
申请日:2016-04-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/9566
Abstract: 本发明公开了一种URL链接有效性的验证方法。该方法包括:向待验证的URL链接发送网络请求,根据网络请求状态返回码判定网络请求是否访问成功;当访问失败时,直接判定URL链接失效;当访问成功时,调用浏览器,模拟用户访问过程,并根据浏览器的渲染结果判定URL链接是否有效。本发明将待验证的URL链接通过网络请求返回状态码对URL进行粗过滤,然后在根据浏览器的渲染结果对URL链接进行更为准确的判断。通过将两者相结合的方式,可提升整个验证过程的验证效率、减小系统开销,同时保证了验证结果的准确性。
-
公开(公告)号:CN105975392A
公开(公告)日:2016-09-28
申请号:CN201610282319.7
申请日:2016-04-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F11/36
CPC classification number: G06F11/3616
Abstract: 本发明公开了一种基于抽象语法树的重复代码检测方法及装置。该重复代码检测方法包括:对待检测代码和样本代码分别构建抽象语法树;将两棵抽象语法树的子树根据根节点类型分别进行分类;将根节点类型相同的两棵抽象语法树的子树进行对比,判断是否存在公共子树;当存在公共子树时,获取公共子树对应的代码,判定该代码即为重复代码。通过本发明的方法可以完全避免空格、换行、缩进、注释等无关信息对相似性判定的影响,快速检测出重复代码。
-
公开(公告)号:CN105069169A
公开(公告)日:2015-11-18
申请号:CN201510547203.7
申请日:2015-08-31
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提出了一种网站镜像的检测方法及装置。所述检测方法包括:计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站,在保证检测准确性的同时,提高网站镜像检测的效率。
-
公开(公告)号:CN104361037A
公开(公告)日:2015-02-18
申请号:CN201410591807.7
申请日:2014-10-29
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/30705 , G06F17/271
Abstract: 本发明公开了一种微博分类方法及装置。该方法包括:步骤1,对训练语料集合进行预处理,对预处理后的训练语料进行分词,获取候选特征,并对候选特征进行权重计算,根据权重计算结果进行特征选择,获取最终的分类特征;步骤2,根据最终的分类特征,采用贝叶斯分类器进行模型训练,获取分类模型;步骤3,采用贝叶斯分类器根据分类模型对微博文档进行分类。借助于本发明的技术方案,提高了分类的召回率与准确率。
-
公开(公告)号:CN118709688A
公开(公告)日:2024-09-27
申请号:CN202410746400.0
申请日:2024-06-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/242 , G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/082
Abstract: 本发明公开一种基于问答机制的文本变体词识别方法、装置及设备,属于文本信息识别领域。所述方法包括:构建变体词库,并通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强;在数据增强后的变体词库上训练一变体词推理模型,所述变体词推理模型的网络结构包括:一语言表征模型和两个独立的全连接层;将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率;基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果。本发明不仅能够提高变体词识别的准确性,还能够有效地降低模型的维护成本,增强其在实际应用中的适应性和鲁棒性。
-
公开(公告)号:CN118708728A
公开(公告)日:2024-09-27
申请号:CN202410746389.8
申请日:2024-06-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F16/33 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于难度序列推理的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明根据文档上下文选择对应的提示学习模板,对上下文和提示学习模板进行编码,得到上下文表示和提示表示,该提示表示包含论元角色的向量表示;根据每个论元角色的向量表示计算每个论元角色的预测困难分数,根据预测困难份数对论元角色进行排序,得到预测的推理路径;按照预测的推理路径的顺序进行信息推理,得到每个论元角色的推理概率分布;根据得到的每个论元角色的推理概率分布,预测每个论元角色的位置并抽取论元。本发明能够利用简单论元的信息来帮助抽取困难的论元。
-
公开(公告)号:CN118035711A
公开(公告)日:2024-05-14
申请号:CN202410431137.6
申请日:2024-04-11
Applicant: 国家计算机网络与信息安全管理中心江苏分中心
IPC: G06F18/21 , G06F18/2431 , G06N3/09
Abstract: 本发明公开了一种针对大模型内容安全能力的评测方法及系统,属于网络空间安全技术领域。所述评测方法包括步骤1,构建多模态、多领域和多题型的评测集;步骤2,构建内容安全评测模型;步骤3,将评测集的问题输入至被测大模型,输出对应的大模型回答;将问题和对应大模型回答整理成问答集,将所述问答集输入至所述内容安全评测模型,根据内容安全评测模型的输出对所述大模型进行综合打分,获得针对大模型内容安全能力的评测结果。该方法可以量化评价大模型跨模态内容安全防护性能,为监管部门、第三方评测机构、大模型研发机构提供参考数据。
-
公开(公告)号:CN117312864A
公开(公告)日:2023-12-29
申请号:CN202311618449.X
申请日:2023-11-30
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/214 , G06F18/10 , G06F18/25 , G06F40/284 , G06N3/08 , G06N3/0455 , G06N3/0475
Abstract: 本发明提供一种基于多模态信息的变形词生成模型的训练方法及装置,涉及语言生成技术领域,方法包括:获取变形词语料库,变形词语料库包括的不同初始样本由多模态信息组成;对变形词语料库中不同初始样本的不同类型的语料信息,采用对应类型的预处理方式分别进行预处理,生成大规模语料库;大规模语料库中每个语料样本包括多个语料信息的权重及特征向量,不同的语料信息的权重用于表征不同的语料信息在对应样本中不同的贡献程度;基于大规模语料库中预设数量的语料样本包括的多个语料信息的权重及特征向量,对初始模型进行训练,得到基于多模态信息的变形词生成模型。本发明能够提高变形词生成的精度和准确率。
-
-
-
-
-
-
-
-
-