-
公开(公告)号:CN112287274A
公开(公告)日:2021-01-29
申请号:CN202011162449.X
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN109840298A
公开(公告)日:2019-06-04
申请号:CN201811637902.0
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/955
Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。
-
公开(公告)号:CN109753596A
公开(公告)日:2019-05-14
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。
-
公开(公告)号:CN104268148B
公开(公告)日:2018-02-06
申请号:CN201410429698.9
申请日:2014-08-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。
-
公开(公告)号:CN117332143A
公开(公告)日:2024-01-02
申请号:CN202311095566.2
申请日:2023-08-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提出一种网络用户心理测量基础数据补充采集方法、装置,方法包含:筛选出目标用户,并从所述目标用户的评论中筛选出目标评论作为评论对象;针对所述目标评论,生成对应的交互信息;依据所述目标用户的属性,预测最佳交互时间;将所述交互信息在所述最佳交互时间发布至所述目标评论下;获取目标用户对交互信息的回复评论数据作为补充的用户心理测量基础数据。该方法能够有效补充用户的心理测量基础数据,该数据可输入到心理识别模型,提升识别准确度。
-
公开(公告)号:CN109815382B
公开(公告)日:2022-07-12
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN114491157A
公开(公告)日:2022-05-13
申请号:CN202210132296.7
申请日:2022-02-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/90 , G06F16/901 , G06F16/903
Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。
-
公开(公告)号:CN114443820A
公开(公告)日:2022-05-06
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN113190733A
公开(公告)日:2021-07-30
申请号:CN202110459851.2
申请日:2021-04-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个流行度历史序列形成网络事件的流行度联合历史序列;利用生成式对抗网络将流行度联合预测序列与流行度联合历史序列进行对齐,得到网络事件的流行度最终预测序列。
-
公开(公告)号:CN109819019B
公开(公告)日:2021-04-27
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
-
-
-
-
-
-
-
-