-
公开(公告)号:CN112836493B
公开(公告)日:2023-03-14
申请号:CN202011404000.X
申请日:2020-12-04
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F40/226 , G06F40/284 , G06F16/33
摘要: 本发明公开了一种转写文本校对方法及存储介质,包括,基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果。本发明方法基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;根据所述候选方案集确定校对方案,由此从不同的文本粒度出发确定校对方案,提高了转写文本的准确性和语义的合理性。
-
公开(公告)号:CN115495573A
公开(公告)日:2022-12-20
申请号:CN202210935919.4
申请日:2022-08-04
申请人: 烟台中科网络技术研究所 , 国家计算机网络与信息安全管理中心
摘要: 本发明公开了一种特定业务类型App的高效准确分类方法,首先构建App社交功能属性体系表,针对不同的功能属性构建关键词过滤规则,通过静态反编译的方式获取功能按钮进行规则匹配,进行细粒度核验,考虑到细粒度核验的速度慢准确率高的特点,将部分细粒度核验的结果人工校验后作为训练数据,以App简介作为输入数据进行深度学习模型训练,实现粗粒度核验,达到快速大批量核验。对核验结果进行人工校对,不断优化整个核验流程。本方法用于App类别判定工作,能够快速、准确地从海量App中筛选出特定业务类型对象。
-
公开(公告)号:CN111159990B
公开(公告)日:2022-09-30
申请号:CN201911244936.8
申请日:2019-12-06
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC分类号: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31
摘要: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
-
公开(公告)号:CN112084373B
公开(公告)日:2022-06-03
申请号:CN202010778910.8
申请日:2020-08-05
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/901 , G06F40/151 , G06Q50/00 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于图嵌入的多源异构网络用户对齐方法,其特征在于:1)通过用户名和社会角色计算用户属性的相似度;2)通过随机游走算法获得异构网络的节点序列,分析节点之间的相互关系;3)利用嵌入算法,对节点序列计算得到网络的嵌入表示;4)根据用户的属性相似度以及结构特征,训练多层神经网络对齐用户。本发明所公开的基于图嵌入的多源异构网络用户对齐方法可用于在线社交网络的用户对齐,在推荐系统、人物画像补全等多个领域具有重要应用,算法的计算复杂度低,可在网络中快速对齐相同用户,对真实数据适用性强。
-
公开(公告)号:CN112181613A
公开(公告)日:2021-01-05
申请号:CN202010943286.2
申请日:2020-09-09
申请人: 国家计算机网络与信息安全管理中心
摘要: 本发明公开了一种异构资源分布式计算平台批量任务调度方法及存储介质,本发明在由几个计算中心组成的异构资源分布式计算集群中,将每个计算中心中的异构资源进行整合与分组,针对分布式计算平台中常见任务的需求,将这些资源合理地分配到预设的具有相应资源偏好的任务队列中。当有一批新任务提交时,根据用户提交的每个任务的相应特征以及各个中心的任务队列当前状态,分析全局最优解,为每个任务选择合适的队列。从而高效利用跨中心多集群中的异构资源,合理进行批量任务调度,解决现有技术中任务调度性能低、任务等待时间长的问题。
-
公开(公告)号:CN111143508A
公开(公告)日:2020-05-12
申请号:CN201911244928.3
申请日:2019-12-06
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC分类号: G06F16/33 , G06F40/30 , G06F40/289 , G06K9/62
摘要: 本发明提出了一种基于通信类短文本的事件检测与跟踪方法,包括:提取与某事件对应的样本集合中各通信类短文本的语义特征、关键要素,及该样本集合的传播网络;根据该语义特征、该关键要素和该传播网络,分别获得任意两个该通信类短文本之间的语义距离、要素距离和用户距离;以该语义距离、该要素距离和该用户距离,获得任意两个该通信类短文本之间的度量距离;对所有该度量距离进行聚类,获得该事件的事件检测结果;提取该事件检测结果的特征属性以跟踪该事件。还提出一种基于通信类短文本的事件检测与跟踪系统,以及一种进行基于通信类短文本的事件检测与跟踪的数据处理装置。
-
公开(公告)号:CN110825998A
公开(公告)日:2020-02-21
申请号:CN201910733928.3
申请日:2019-08-09
IPC分类号: G06F16/958 , G06F16/35 , G06K9/62
摘要: 本发明公开了一种网站识别方法及可读存储介质,该方法包括如下步骤:提取网站样本数据,并对所述网站样本数据进行处理构建网页文本卷积神经网络CNN特征;提取网页特征,根据所述网页特征和所述网页文本CNN特征进行特征融合获得网站融合特征;根据所述网站融合特征进行模型训练获得识别模型,根据所述识别模型对待识别的网站进行识别。本发明方法通过使用网页文本特征构建的分类模型比较构建多特征融合分类模型,分类精度有大幅度提高。
-
公开(公告)号:CN110704611A
公开(公告)日:2020-01-17
申请号:CN201910730306.5
申请日:2019-08-08
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F40/216 , G06F40/242 , G06F40/279
摘要: 本发明公开了一种基于特征解交织的非法文本识别方法及装置,所述方法包括:步骤1,对待识别文本进行去变体操作,去除所述待识别文本中的特殊字符;步骤2,根据预先设置的文本特征词库和乱序特征字库,判断所述待识别文本是否为乱序文本,如果判断为是,则对所述待识别文本进行解交织处理,消除变体,否则,直接执行步骤3;步骤3,利用预先训练的分类器组对解变体后的待识别文本进行分类,输出是否为非法文本预测结果。
-
公开(公告)号:CN110674290A
公开(公告)日:2020-01-10
申请号:CN201910733074.9
申请日:2019-08-09
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F16/36 , G06F40/284 , G06Q50/00
摘要: 本发明提出了一种用于重叠社区发现的关系预测方法、装置和存储介质,用以解决由于获取的用户关系图不够完整,降低了社区发现结果准确性的问题。用于重叠社区发现的关系预测方法,包括:获取用户通信信息中包含的信息内容并分类;确定每一类信息内容中包含的两两信息内容之间的相似度;对于相似度大于预设阈值的两条信息内容,构建该两条信息内容的发送信息用户之间的短时转发关系;构建所述用户通信信息中发送信息用户和接收信息用户之间的收发关系;根据所述短时转发关系和所述收发关系,构建用户关系图;基于所述用户关系图,利用社区发现算法进行社区发现。
-
公开(公告)号:CN114625978B
公开(公告)日:2024-11-08
申请号:CN202011454130.4
申请日:2020-12-10
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F18/22 , G06F18/25 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/0985 , G06F16/9536 , G06Q50/00
摘要: 本发明提供一种基于类型感知的异质网络用户锚链接预测方法及电子装置,包括收集待检测网络和目标网络的网络信息,构建待检测异质网络和目标异质网络;获取每一节点各维度的初始特征向量,得到每个节点的初始特征向量表示;将初始特征向量表示输入基于自注意力图神经网络进行学习,计算各节点的类型感知向量和类型融合向量;通过待检测异质网络和目标异质网络中各节点对之间属于同一类型的类型感知向量及类型融合向量的相似度,判断待检测网络和目标网络是否为锚链接。本发明采用注意力机制捕获节点与类型信息之间影响,利用图注意力网络学习类型感知向量和类型融合向量,解决异质网络中对多种类型信息建模的问题,取得较好的锚链接预测效果。
-
-
-
-
-
-
-
-
-