-
公开(公告)号:CN112887381B
公开(公告)日:2022-07-19
申请号:CN202110057704.2
申请日:2021-01-15
申请人: 中国地质大学(武汉)
IPC分类号: H04L67/02 , G06F16/958
摘要: 本发明涉及网页内容处理领域,提供一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:S1:获取特定网络入口的网络连接;S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。本发明中用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容,并能够持续的获取新的网页内容。
-
公开(公告)号:CN112887381A
公开(公告)日:2021-06-01
申请号:CN202110057704.2
申请日:2021-01-15
申请人: 中国地质大学(武汉)
IPC分类号: H04L29/08 , G06F16/958
摘要: 本发明涉及网页内容处理领域,提供一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:S1:获取特定网络入口的网络连接;S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。本发明中用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容,并能够持续的获取新的网页内容。
-
公开(公告)号:CN112765464A
公开(公告)日:2021-05-07
申请号:CN202110041726.X
申请日:2021-01-13
申请人: 中国地质大学(武汉)
IPC分类号: G06F16/9535 , G06F16/951 , G06F16/955 , G06F16/34 , G06F16/335
摘要: 本发明提供了一种面向主题的新内容检索推送方法、装置、设备及存储介质。本发明针对各主题信息有需求的用户,能够准时地向这些用户提供关于给定主题领域的新信息。用户在输入想要跟踪的主题内容后,设置希望获得推送的时间以及接收推送信息的邮箱后,系统会在指定的时间采用爬虫技术对给定主题的信息进行获取,经过数据库比较,将最新的内容推送至用户预留邮箱。此方案可以使用户节省许多搜索的时间以及浪费在信息过滤过程中的时间,使得用户在获取信息时更加便捷灵活。同时本方法除了使用基本的邮件提示外,还提供一种直接采用pdf格式将网页内容推送至用户邮箱的方法,使信息获取更为便捷。
-
-