-
公开(公告)号:CN108399213B
公开(公告)日:2022-04-01
申请号:CN201810112624.0
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/172 , G06F16/28
Abstract: 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对所有局部簇进行聚类,生成全局簇。本发明还提供一种面向用户个人文件的聚类系统,包括聚类计算单元、聚类结果存储单元和聚类结果查找单元,其中聚类计算单元包括批量文件聚类计算单元和增量文件聚类计算单元。
-
公开(公告)号:CN109948015A
公开(公告)日:2019-06-28
申请号:CN201710880652.2
申请日:2017-09-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/958
Abstract: 本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。
-