-
公开(公告)号:CN115309899B
公开(公告)日:2023-05-16
申请号:CN202210949186.X
申请日:2022-08-09
Applicant: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F18/22 , G06F40/284 , G06N3/0455
Abstract: 本发明公开了一种文本中特定内容识别存储方法及系统,属于文特定词识别的技术领域,其方法包括生成特定词库和规则库;获取待识别的文本集合;提取当前特定文本数据集中的新特定词,得到新特定词集合;将需要训练的词组输入BERT模型;从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别的问题。
-
公开(公告)号:CN115718835A
公开(公告)日:2023-02-28
申请号:CN202211370652.5
申请日:2022-11-03
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F17/16
Abstract: 本申请涉及一种破除信息茧房问题的冷启动个性化推荐方法及装置,其中,方法包括:在目标账号的使用阶段处于冷启动阶段的情况下,确定与目标账号的用户行为相似度达到第一阈值的对照账号;利用对照账号的对照兴趣矩阵确定目标账号的目标兴趣矩阵;利用目标兴趣矩阵在预设内容池中确定候选推荐集;利用量化因子对候选推荐集中的特征相关度进行权重调整,得到各个候选推荐数据的推荐指数;将推荐指数达到第二阈值的候选推荐数据确定为目标推荐数据,并将目标推荐数据推送给目标账号。通过对照账号来预测用户账号的兴趣矩阵,然后用兴趣矩阵选出候选推荐集,最后结合目标账号的浏览记录确定推荐数据,解决了为冷启动阶段用户推荐的内容趋于同质化的问题。
-
公开(公告)号:CN114840854A
公开(公告)日:2022-08-02
申请号:CN202210380431.X
申请日:2022-04-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F21/57
Abstract: 本发明公开了一种APP典型业务流程信息服务安全风险点的识别方法及装置,包括:对APP功能点进行逻辑拆分,以在逻辑拆分后获取该APP的功能逻辑、内容逻辑、构造逻辑和运行逻辑;确定该APP的功能逻辑、内容逻辑、运行逻辑以及构造逻辑相互之间的关系,以生成该APP的典型业务流程;基于该APP的典型业务流程,根据预设的风险点匹配规则判定信息服务安全风险点。本申请的方法对APP功能点进行逻辑拆分,并确定出拆分后的逻辑之间的关系,从而确定APP的典型业务流程,以实现识别信息服务安全风险点,本申请的方法的结果客观,且适用性强。
-
公开(公告)号:CN107992474B
公开(公告)日:2021-04-27
申请号:CN201711193285.5
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/284 , G06F16/2458 , G06F16/215
Abstract: 本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。
-
公开(公告)号:CN107992473B
公开(公告)日:2021-04-27
申请号:CN201711190871.4
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F16/35
Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
-
公开(公告)号:CN111861465A
公开(公告)日:2020-10-30
申请号:CN202010706712.0
申请日:2020-07-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q20/38
Abstract: 本申请公开了一种基于智能合约的检测方法及装置、存储介质、电子装置,其中方法包括确定区块链上的智能合约,其中,所述智能合约包括:在所述区块链上的数字资产;根据所述数字资产的状态对所述智能合约进行检测操作,其中,所述检测操作至少包括以下之一:检测所述智能合约的链上交易、检测在所述智能合约中提取的数字资产、检测所述数字资产的匹配条件。本申请解决了对于智能合约中的数字资产无法检测是否合规以及在交易过程存在潜在风险的技术问题。
-
公开(公告)号:CN108959351A
公开(公告)日:2018-12-07
申请号:CN201810377825.3
申请日:2018-04-25
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/2785 , G06N3/0481
Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。
-
公开(公告)号:CN108647214A
公开(公告)日:2018-10-12
申请号:CN201810270468.0
申请日:2018-03-29
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及语言处理领域,提出了一种基于深层神经网络翻译模型的解码方法,旨在解决机器翻译模型中模型训练复杂度高、训练难度大解码速度慢等问题。该方法的具体实施方式包括:对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。本发明提升了模型翻译质量,提高了模型解码速度。
-
公开(公告)号:CN107992473A
公开(公告)日:2018-05-04
申请号:CN201711190871.4
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
-
公开(公告)号:CN105843854A
公开(公告)日:2016-08-10
申请号:CN201610150817.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。
-
-
-
-
-
-
-
-
-