一种从单记录网页中抽取规律噪音的方法

    公开(公告)号:CN103064966A

    公开(公告)日:2013-04-24

    申请号:CN201210592795.0

    申请日:2012-12-31

    Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。

    一种从论坛帖子列表页面中抽取帖子元数据的方法

    公开(公告)号:CN101661468B

    公开(公告)日:2011-08-31

    申请号:CN200810119238.0

    申请日:2008-08-29

    Abstract: 本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据。本发明能够满足处理大量的大规模论坛数据的实际需求,且抽取精度高、抽取速度快、维护代价小。

    一种在股评论坛中挖掘股评托的方法

    公开(公告)号:CN1787007A

    公开(公告)日:2006-06-14

    申请号:CN200510130688.6

    申请日:2005-12-21

    Abstract: 本发明涉及网络信息处理技术领域,是一种在股评论坛中利用股评人对某只股票发表股评的前后股市行情的变化,来挖掘股评托的方法。本发明从股评论坛中抽取出某段时间内每个股评人的股评,然后以该股评出笼前后相应股票的行情序列为窗口,用股评托行为模式与窗口中的股评行情序列进行匹配,基于匹配的频率计算股评人是股评托的概率。在股评论坛中挖掘股评托,能够帮助个人投资者认清股评论坛中股评托的真面目,帮助证券业的管理者发现危险分子加以预警,甚至清除出行业队伍,从而保证证券市场的健康发展。目前对我国股评托的行为研究几乎没有。

    一种利用网络用户访问特性的网络代理缓存替换方法

    公开(公告)号:CN1585347A

    公开(公告)日:2005-02-23

    申请号:CN200410047534.6

    申请日:2004-05-21

    Abstract: 本发明涉及网络通信技术领域,利用网络用户访问特性的网络代理缓存替换方法。该方法利用用户访问网络的特性,设计了一种网络代理缓存替换系统来实现网络代理缓存服务。步骤:S1,假设ΔT是网络代理缓存中某页面这次被访问和下次被访问期间发生的所有访问的次数;S2,用户请求页面t,判断缓存中是否包含了t的副本?S3,把t的过期副本从缓存中删除,从网络服务器获得t的新副本;S4,判断缓存中的剩余空间是否足以存放t的新副本?S5,替换优先级最低的页面;S6,把t的新副本压入缓存,S7,副本被返回给用户;S8,根据权重计算公式更新缓存中每个页面的权重;S9,判断是否已经过了一个固定时间段。

    一种基于语义的开放域网页知识抽取方法及系统

    公开(公告)号:CN117131189A

    公开(公告)日:2023-11-28

    申请号:CN202310294820.5

    申请日:2023-03-23

    Abstract: 本发明提出一种基于语义的开放域网页知识抽取方法,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果。本发明还提出一种基于语义的开放域网页知识抽取系统,以及一种用于开放域网页知识抽取的数据处理装置。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287272B

    公开(公告)日:2023-05-23

    申请号:CN202011161424.8

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种基于相似话题的流行度预测方法及系统

    公开(公告)号:CN113780569A

    公开(公告)日:2021-12-10

    申请号:CN202110813797.7

    申请日:2021-07-19

    Abstract: 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各类别下的历史话题的训练数据分别训练全连接网络作为预测模型,充分利用了与待预测话题在流行度演化模式上相似的历史话题的数据,降低了预测误差。基于DTW算法对待预测话题进行分类,使用待预测话题所属类别的模型进行流行度预测,保证预测及时,增强预测的时效性。

    一种优化网站链接结构的方法

    公开(公告)号:CN100385442C

    公开(公告)日:2008-04-30

    申请号:CN200510011212.0

    申请日:2005-01-20

    Abstract: 本发明涉及网络信息处理技术领域,是一种利用网络用户对网页之间相关性的潜在理解来优化网站链接结构的方法。该方法利用网站的服务器日志中蕴含的网络用户对网页之间相关性的潜在理解,从网站的服务器日志中抽取出用户主观上认为的网站链接结构,即虚拟链接结构;并将虚拟链接结构与网站的实际链接结构相比较,计算二者的匹配程度,匹配度越高,说明该网站的链接质量越好;最后将匹配结果量化,汇报给网站设计者。因为该方法是根据网络用户主观上对网站中各网页之间相关性的理解,去纠正网站设计者对网站链接结构的理解,所以能够真正地帮助网站设计者去优化网站链接结构,为用户提供更好的服务。

Patent Agency Ranking