-
公开(公告)号:CN118170962A
公开(公告)日:2024-06-11
申请号:CN202410330465.7
申请日:2024-03-22
Applicant: 南京工程学院
IPC: G06F16/951 , G06F16/955 , G06F16/906 , G06F18/2415 , G06N20/00
Abstract: 本发明公开了一种基于PTB模型的主题爬虫方法、系统及存储介质,属于计算机网络信息获取技术领域,方法包括:依次爬取种子URL集,获取种子URL集内部的所有URL链接并依次放入URL队列中;对URL队列中的URL链接进行过滤,并对经过过滤的URL连接依次进行页面解析,获取相应的页面链接和页面内容;基于改进的Page Rank算法,对页面连接进行链接主题度计算,获取链接主题度;基于改进的贝叶斯分类算法,对页面内容进行内容主题度计算,获取内容主题度;基于PTB模型,根据连接主题度和内容主题度,计算主题相关度,并将主题相关度小于预设阈值的网页舍弃,将主题相关度大于或等于预设阈值的网页存储至数据库。该方法能够提高主题爬虫方法和系统中主题度判别的精度。