-
公开(公告)号:CN111488424A
公开(公告)日:2020-08-04
申请号:CN202010230061.2
申请日:2020-03-27
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/31 , G06F16/38 , G06F16/951 , G06F16/955 , G06F40/14
Abstract: 本发明提出一种特定学术领域人物的发现与跟踪方法,包括:发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新步骤,以该作者信息和该论文信息,更新或加入特定学术领域数据库。
-
公开(公告)号:CN116126553A
公开(公告)日:2023-05-16
申请号:CN202211689339.8
申请日:2022-12-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于编排执行的信息获取方法,包括:根据对目标信源的多层树状采集需求生成任务树,编排该任务树的初始配置;将该初始配置放入任务队列;由原子采集器获取该初始配置,根据该初始配置生成根采集任务;执行该根采集任务,生成该根采集任务的子任务的任务配置,将该任务配置放入任务队列,并输出该根采集任务的采集结果;由原子采集器获取任务配置,根据该任务配置生成当前任务;执行该当前任务,生成该当前任务的子任务的任务配置,将该任务配置放入任务队列,并输出该当前任务的采集结果;重复本步骤,直到完成该任务树。本发明还提出一种基于编排执行的信息获取系统,以及一种用于实现基于编排执行的信息获取的数据处理装置。
-
公开(公告)号:CN117332143A
公开(公告)日:2024-01-02
申请号:CN202311095566.2
申请日:2023-08-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提出一种网络用户心理测量基础数据补充采集方法、装置,方法包含:筛选出目标用户,并从所述目标用户的评论中筛选出目标评论作为评论对象;针对所述目标评论,生成对应的交互信息;依据所述目标用户的属性,预测最佳交互时间;将所述交互信息在所述最佳交互时间发布至所述目标评论下;获取目标用户对交互信息的回复评论数据作为补充的用户心理测量基础数据。该方法能够有效补充用户的心理测量基础数据,该数据可输入到心理识别模型,提升识别准确度。
-
公开(公告)号:CN113190733A
公开(公告)日:2021-07-30
申请号:CN202110459851.2
申请日:2021-04-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个流行度历史序列形成网络事件的流行度联合历史序列;利用生成式对抗网络将流行度联合预测序列与流行度联合历史序列进行对齐,得到网络事件的流行度最终预测序列。
-
公开(公告)号:CN112287272A
公开(公告)日:2021-01-29
申请号:CN202011161424.8
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN112287274B
公开(公告)日:2022-10-18
申请号:CN202011162449.X
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN112287273B
公开(公告)日:2022-09-30
申请号:CN202011161426.7
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。
-
公开(公告)号:CN112287274A
公开(公告)日:2021-01-29
申请号:CN202011162449.X
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN113190733B
公开(公告)日:2023-09-12
申请号:CN202110459851.2
申请日:2021-04-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个流行度历史序列形成网络事件的流行度联合历史序列;利用生成式对抗网络将流行度联合预测序列与流行度联合历史序列进行对齐,得到网络事件的流行度最终预测序列。
-
公开(公告)号:CN112287272B
公开(公告)日:2023-05-23
申请号:CN202011161424.8
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
-
-
-
-
-
-
-
-