一种从单记录网页中抽取规律噪音的方法

    公开(公告)号:CN103064966B

    公开(公告)日:2016-01-27

    申请号:CN201210592795.0

    申请日:2012-12-31

    Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506A

    公开(公告)日:2014-06-18

    申请号:CN201210548678.4

    申请日:2012-12-17

    CPC classification number: G06F17/30864 G06F17/30929

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    一种网页的正文抽取方法

    公开(公告)号:CN101727461B

    公开(公告)日:2012-11-21

    申请号:CN200810223791.9

    申请日:2008-10-13

    Inventor: 郭岩 丁国栋 张刚

    Abstract: 本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子树与该节点及其子树承载的文本的标点符号的数量的差值,顺序构成增量序列;3)在所述增量序列中查找第一个0值的增量,或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量;4)如果查找到所述增量,则确定该增量的对应节点及其子树所承载的文本是网页的正文;5)如果未查找到所述增量,则确定根节点及其子树所承载的文本是网页的正文。本发明抽取精度高,实现速度快,维护代价低且适应性好。

    一种利用网络用户访问特性的网络代理缓存替换方法

    公开(公告)号:CN1281029C

    公开(公告)日:2006-10-18

    申请号:CN200410047534.6

    申请日:2004-05-21

    Abstract: 本发明涉及网络通信技术领域,利用网络用户访问特性的网络代理缓存替换方法。该方法利用用户访问网络的特性,设计了一种网络代理缓存替换系统来实现网络代理缓存服务。步骤:S1,假设Δ′T是网络代理缓存中某页面这次被访问和下次被访问期间发生的所有访问的次数;S2,用户请求页面t,判断缓存中是否包含了t的副本?S3,把t的过期副本从缓存中删除,从网络服务器获得t的新副本;S4,判断缓存中的剩余空间是否足以存放t的新副本?S5,替换优先级最低的页面;S6,把t的新副本压入缓存,S7,副本被返回给用户;S8,根据权重计算公式更新缓存中每个页面的权重;S9,判断是否已经过了一个固定时间段。

    面向网页的阅读理解模型的训练方法、装置、存储介质

    公开(公告)号:CN118445392A

    公开(公告)日:2024-08-06

    申请号:CN202410577965.0

    申请日:2024-05-10

    Abstract: 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信息表示;获取网页中的提示词,利用该提示词对初始问题文本进行信息增强,得到目标问题文本;将该逻辑结构信息表示与该空间结构信息表示融合,输入到网页阅读理解模型中;以及将该目标问题文本与该网页内容文本拼接,输入到该网页阅读理解模型中,获取答案。该方法提升了模型的网页理解能力,进而提高答案的准确性和相关性。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287273A

    公开(公告)日:2021-01-29

    申请号:CN202011161426.7

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。

    一种网络事件预警方法及系统

    公开(公告)号:CN111914152A

    公开(公告)日:2020-11-10

    申请号:CN202010615515.8

    申请日:2020-06-30

    Abstract: 本发明提出一种网络事件预警方法及系统,包括:针对现有网络事件预警技术在子指标的计算、指标权重的赋值、预警效果的评价方面缺乏足够客观性,进而影响预警准确率的问题,本发明提出一种网络事件预警方法及系统。在计算子指标方面,本发明充分考虑消息之间的相互影响,利用物理学中的安培定律,让预警结果尽可能地反应整个事件的走向,提升客观性,提高预警准确率。在通过子指标逐级向上计算父指标方面,本发明利用物理学中场的概念来分析指标之间的关系,并借用场的度量方法为子指标赋权重,不需要专家参与,提升赋值过程的客观性,提高预警准确率。在网络事件预警评价方面,本发明借鉴异常检测思想提出客观的预警评价方法,提高评价的准确率。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506B

    公开(公告)日:2017-02-08

    申请号:CN201210548678.4

    申请日:2012-12-17

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148A

    公开(公告)日:2015-01-07

    申请号:CN201410429698.9

    申请日:2014-08-27

    CPC classification number: G06F17/30876

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

Patent Agency Ranking