-
公开(公告)号:CN106789411A
公开(公告)日:2017-05-31
申请号:CN201611117606.9
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
IPC: H04L12/26
Abstract: 本发明公开了一种机房内活跃IP数据的采集方法和装置。所述方法包括:从原始流量数据中,采集待测的活跃IP及其相应的IP数据;采用预设的traceroute拨测技术并配合相应的机器学习算法,判断待测的活跃IP是否属于机房内的IP;剔除待测的活跃IP中的机房外IP,并采集机房内的活跃IP对应的IP数据。本发明提供的机房内活跃IP数据的采集方法,能有效剔除属于机房外的活跃IP,使得采集到的机房内的活跃IP数据准确性和有效性大大提升,为后续的数据分析提供了良好的数据基础。
-
公开(公告)号:CN106789411B
公开(公告)日:2020-01-21
申请号:CN201611117606.9
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
IPC: H04L12/26
Abstract: 本发明公开了一种机房内活跃IP数据的采集方法和装置。所述方法包括:从原始流量数据中,采集待测的活跃IP及其相应的IP数据;采用预设的traceroute拨测技术并配合相应的机器学习算法,判断待测的活跃IP是否属于机房内的IP;剔除待测的活跃IP中的机房外IP,并采集机房内的活跃IP对应的IP数据。本发明提供的机房内活跃IP数据的采集方法,能有效剔除属于机房外的活跃IP,使得采集到的机房内的活跃IP数据准确性和有效性大大提升,为后续的数据分析提供了良好的数据基础。
-
公开(公告)号:CN106599155B
公开(公告)日:2020-05-26
申请号:CN201611117608.8
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
IPC: G06F16/35 , G06F40/284 , G06K9/62
Abstract: 本发明公开了一种网页分类方法,包括:抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
-
公开(公告)号:CN106789979A
公开(公告)日:2017-05-31
申请号:CN201611116948.9
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
Abstract: 本发明公开了一种IDC机房内活跃域名的有效性诊断方法和装置。所述方法包括:通过对比获取到的真实服务器IP信息与本地IDC机房内所有服务器IP信息,判断获取到的真实服务器IP是否属于本地服务器IP;通过对比获取到的真实服务器IP信息与显示服务器IP信息,判断获取到的显示服务器IP是否属于真实服务器IP;当获取到的真实服务器IP属于本地服务器IP且同时显示服务器IP属于真实服务器IP时,判断待测活跃域名为有效活跃域名。本发明提供的方法判断活跃域名的有效性,能有效的过滤掉无效域名、能够访问但和显示服务器IP地址对应不上的域名、非本地IDC机房内的域名,最大限度地确保活跃域名的真实性和准确性。
-
公开(公告)号:CN106599155A
公开(公告)日:2017-04-26
申请号:CN201611117608.8
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
Abstract: 本发明公开了一种网页分类方法,包括:抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
-
公开(公告)号:CN106789979B
公开(公告)日:2020-01-21
申请号:CN201611116948.9
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
Abstract: 本发明公开了一种IDC机房内活跃域名的有效性诊断方法和装置。所述方法包括:通过对比获取到的真实服务器IP信息与本地IDC机房内所有服务器IP信息,判断获取到的真实服务器IP是否属于本地服务器IP;通过对比获取到的真实服务器IP信息与显示服务器IP信息,判断获取到的显示服务器IP是否属于真实服务器IP;当获取到的真实服务器IP属于本地服务器IP且同时显示服务器IP属于真实服务器IP时,判断待测活跃域名为有效活跃域名。本发明提供的方法判断活跃域名的有效性,能有效的过滤掉无效域名、能够访问但和显示服务器IP地址对应不上的域名、非本地IDC机房内的域名,最大限度地确保活跃域名的真实性和准确性。
-
公开(公告)号:CN106789980A
公开(公告)日:2017-05-31
申请号:CN201611116949.3
申请日:2016-12-07
Applicant: 北京亚鸿世纪科技发展有限公司 , 任子行网络技术股份有限公司
Abstract: 本发明提供了一种网站合法性的安全监管方法,包括在互联网数据中心出口,采集用户与网站的交互数据流量;解析流量数据,获取数据包中的网站域名地址;将网站域名地址与网站域名备案库中存储的网站域名进行匹配,如果匹配不成功,则判定网站为违规网站,并向用户发送阻断包或重定向包,阻止用户访问,如果匹配成功,则判定网站为备案网站,并还原数据包中的文字内容;将还原出来的文字内容与违法关键字库进行匹配,如果匹配成功,则判定网站是违法网站,并向用户发送阻断包或重定向包,阻止用户访问。本发明通过旁路重定向技术,实现对网站域名、网站内容的合法性进行自动识别,阻止用户访问非法网站并给用户提供友好的提示页面。
-
公开(公告)号:CN115474233B
公开(公告)日:2024-12-10
申请号:CN202210894305.6
申请日:2022-07-27
Applicant: 北京亚鸿世纪科技发展有限公司
IPC: H04W28/06 , H04L47/2483 , H04L67/12 , H04W4/40 , G06N20/20 , G06N5/01 , G06F18/243
Abstract: 一种智能网联汽车流量的识别方法及装置涉及信息技术领域,本发明包括计算流量度量模型步骤和用流量度量模型计算流量类型步骤;本方法在结合使用网络流量类特征和设备信息类特征的识别方式进基础上,增加了使用一种基于流量切片和机器学习分类技术的方法,用来实现剔除混杂在车联网流量中的非联网汽车流量,在降低联网汽车流量识别漏报率的同时,极大地提升了流量识别的准确性。
-
公开(公告)号:CN114884850B
公开(公告)日:2024-10-08
申请号:CN202210375880.5
申请日:2022-04-12
Applicant: 北京亚鸿世纪科技发展有限公司
Abstract: 路由跟踪指令特征结合图算分析确定IP地址归属的方法涉及信息技术领域,本发明包含以下步骤:1)路由跟踪指令拨测域外IP获取图特征,完成初步训练样本;2)计算边境级路由并完善训练样本;3)将训练样本输入向量机,通过多特征配置进行训练,得到IP地址归属自动判断模型。本发明无需庞大的IP库维护负担,避免大规模数据处理和大数据集群需求和数据存储负担,分析数据及时性高,在适用场景下,减轻大规模IP数据人工标注负担,可以适用ipv6地址的快速区域定位。
-
公开(公告)号:CN113806614B
公开(公告)日:2024-05-17
申请号:CN202111178557.0
申请日:2021-10-10
Applicant: 北京亚鸿世纪科技发展有限公司
IPC: G06F16/951 , G06F16/955 , G06F16/957 , G06F16/958
Abstract: 一种基于分析Http请求的网络爬虫快速识别装置涉及信息技术领域,本发明由关键页面设定器、访问请求捕捉器、流计算引擎模块和爬虫判定器组成;流计算引擎模块由单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器组成;本发明可以实时判断网络爬虫,有助于实时采取阻断措施。
-
-
-
-
-
-
-
-
-