一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287274A

    公开(公告)日:2021-01-29

    申请号:CN202011162449.X

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    大规模网络数据的多信息来源采集方法和系统

    公开(公告)号:CN109840298A

    公开(公告)日:2019-06-04

    申请号:CN201811637902.0

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

    一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148B

    公开(公告)日:2018-02-06

    申请号:CN201410429698.9

    申请日:2014-08-27

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

    一种面向网络话题的热度评价方法

    公开(公告)号:CN104615685B

    公开(公告)日:2018-01-26

    申请号:CN201510032875.4

    申请日:2015-01-22

    Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。

    一种用于eMule网络的文件资源信息采集方法

    公开(公告)号:CN103354554B

    公开(公告)日:2016-07-27

    申请号:CN201310204527.1

    申请日:2013-05-28

    Abstract: 本发明提供一种用于eMule网络的文件资源信息采集方法,包括下列步骤:1)初始化文件集合;2)遍历所述文件集合,对于每个文件,搜索共享过该文件的活跃客户端的地址信息,得到活跃客户端集合;3)对于活跃客户端集合中的每个活跃客户端,探测该活跃客户端所共享的文件列表;4)根据所探测的活跃客户端所共享的文件列表,更新所述文件集合,返回执行步骤2);重复执行所述步骤2)~4),得到文件索引表,该文件索引表中记录出现在所述文件集合中的每个文件及其对应的活跃客户端地址信息。本发明能够全面获取eMule网络上所有文件的索引;能够获得eMule网络中各个文件资源的活跃度信息,从而为进一步的监控提供依据。

    一种短文本数据的事件演化分析方法

    公开(公告)号:CN103150383B

    公开(公告)日:2015-07-29

    申请号:CN201310082990.3

    申请日:2013-03-15

    Abstract: 本发明提供一种短文本数据的事件演化分析方法,包括:根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到文档—事件矩阵和事件—词项矩阵;根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图;当前时段的事件关系图分割为一个或多个子图;对子图进行归类得到新生成事件集和演化事件集;根据文档—事件矩阵计算每个事件关联的文档数,并根据该文档数做演化事件集的趋势分析和预测,作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。

    一种面向网络话题的热度评价方法

    公开(公告)号:CN104615685A

    公开(公告)日:2015-05-13

    申请号:CN201510032875.4

    申请日:2015-01-22

    Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。

Patent Agency Ranking