-
公开(公告)号:CN111444412A
公开(公告)日:2020-07-24
申请号:CN202010261408.X
申请日:2020-04-03
Applicant: 北京明朝万达科技股份有限公司
IPC: G06F16/951 , G06F16/955 , G06F9/48 , G06F9/50 , G06F9/54
Abstract: 本发明公开了一种网络爬虫任务的调度方法及装置。其中,该方法包括:获取待爬取目标数据的初始网络地址列表;依据上述待爬取目标数据的优先级信息,将上述初始网络地址列表对应加入上述目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个上述目标消息队列的优先级不同;在检测到指示执行上述爬虫任务的情况下,依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页,获取目标网络地址列表;依据上述目标网络地址列表的优先级,将上述目标网络地址列表对应放入待爬取网络地址队列中;依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。本发明解决了现有技术中的网络爬虫均未结合爬虫的优先级进行任务调度,导致网络爬虫爬取数据的效率较低的技术问题。
-
公开(公告)号:CN112100655A
公开(公告)日:2020-12-18
申请号:CN202010941286.9
申请日:2020-09-09
Applicant: 北京明朝万达科技股份有限公司
Abstract: 本发明实施例提供一种数据检测方法、装置、电子设备及可读存储介质,属于数据安全技术领域。该方法中,会先从外部数据源中获取待检测数据,再根据预设的敏感数据检测规则,确定待检测数据为已泄露敏感数据的概率,根据概率确定待检测数据对应的泄露事件的目标严重等级,最后,根据目标严重等级,输出告警信息。通过从外部数据源中检测敏感数据来确定是否存在敏感数据的泄露,可以实现对敏感数据的全网监测,使得用户可以及时发现已泄露的敏感数据,从而可以提高数据防护的效率。
-
公开(公告)号:CN111444412B
公开(公告)日:2023-06-16
申请号:CN202010261408.X
申请日:2020-04-03
Applicant: 北京明朝万达科技股份有限公司
IPC: G06F16/951 , G06F16/955 , G06F9/48 , G06F9/50 , G06F9/54
Abstract: 本发明公开了一种网络爬虫任务的调度方法及装置。其中,该方法包括:获取待爬取目标数据的初始网络地址列表;依据上述待爬取目标数据的优先级信息,将上述初始网络地址列表对应加入上述目标消息队列中,创建得到爬虫任务,其中,多个目标消息队列中的每个上述目标消息队列的优先级不同;在检测到指示执行上述爬虫任务的情况下,依据上述目标消息队列的优先级和上述初始网络地址列表爬取网页,获取目标网络地址列表;依据上述目标网络地址列表的优先级,将上述目标网络地址列表对应放入待爬取网络地址队列中;依据上述待爬取网络地址队列的优先级和上述目标网络地址列表爬取网页,直至无法获取得到目标网络地址列表。本发明解决了现有技术中的网络爬虫均未结合爬虫的优先级进行任务调度,导致网络爬虫爬取数据的效率较低的技术问题。
-
-