-
公开(公告)号:CN106528535A
公开(公告)日:2017-03-22
申请号:CN201611001398.6
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/275
Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等99种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。
-
公开(公告)号:CN108090188B
公开(公告)日:2021-05-07
申请号:CN201711367377.0
申请日:2017-12-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458
Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。
-
公开(公告)号:CN108090188A
公开(公告)日:2018-05-29
申请号:CN201711367377.0
申请日:2017-12-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。
-
公开(公告)号:CN105871705A
公开(公告)日:2016-08-17
申请号:CN201610397804.9
申请日:2016-06-07
Applicant: 北京赛思信安技术股份有限公司
IPC: H04L12/58
CPC classification number: H04L51/043 , H04L51/08 , H04L51/12
Abstract: 本发明公开了一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,包括以下几个步骤:步骤一:分解电子邮件内容;步骤二:对电子邮件内容中各个部分进行重复判断;步骤三:对电子邮件内容进行重新组织;本发明可以对海量的电子邮件进行内容重复的判断,有效的降低了海量电子邮件处理过程中因电子邮件处理内容处理带来的资源开销。
-
公开(公告)号:CN106101018A
公开(公告)日:2016-11-09
申请号:CN201610397801.5
申请日:2016-06-07
Applicant: 北京赛思信安技术股份有限公司
IPC: H04L12/861 , H04L29/08
CPC classification number: H04L49/9047 , H04L67/1097 , H04L67/141 , H04L67/2842
Abstract: 本发明公开了一种面向分布式海量数据加载系统的可靠数据发送方法,消息结构包括消息头和消息体两部分构成;消息头包括:消息ID,消息类型和自定义消息。该消息可以通过http,https,TCP/IP或者其他类型的网络传输协议进行网络传输。接收终端可以根据消息头部的消息ID进行去重,验证等操作并且返回处理结果。按照本发明提供的方法,用户可以准确,有效的向分布式系统中发送数据。
-
-
-
-