一种基于编排执行的信息获取方法和系统

    公开(公告)号:CN116126553A

    公开(公告)日:2023-05-16

    申请号:CN202211689339.8

    申请日:2022-12-27

    Abstract: 本发明提出一种基于编排执行的信息获取方法,包括:根据对目标信源的多层树状采集需求生成任务树,编排该任务树的初始配置;将该初始配置放入任务队列;由原子采集器获取该初始配置,根据该初始配置生成根采集任务;执行该根采集任务,生成该根采集任务的子任务的任务配置,将该任务配置放入任务队列,并输出该根采集任务的采集结果;由原子采集器获取任务配置,根据该任务配置生成当前任务;执行该当前任务,生成该当前任务的子任务的任务配置,将该任务配置放入任务队列,并输出该当前任务的采集结果;重复本步骤,直到完成该任务树。本发明还提出一种基于编排执行的信息获取系统,以及一种用于实现基于编排执行的信息获取的数据处理装置。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287272A

    公开(公告)日:2021-01-29

    申请号:CN202011161424.8

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287274B

    公开(公告)日:2022-10-18

    申请号:CN202011162449.X

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287273B

    公开(公告)日:2022-09-30

    申请号:CN202011161426.7

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287274A

    公开(公告)日:2021-01-29

    申请号:CN202011162449.X

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287272B

    公开(公告)日:2023-05-23

    申请号:CN202011161424.8

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

Patent Agency Ranking