-
公开(公告)号:CN107291895B
公开(公告)日:2020-05-26
申请号:CN201710476244.0
申请日:2017-06-21
Applicant: 浙江大学
IPC: G06F16/21 , G06F16/31 , G06F16/335 , G06F16/2458 , G06F40/284
Abstract: 本发明公开了一种快速的层次化文档查询方法。对文档集中的每个文档建立数据模型,对文档进行格式化处理获得文档质心向量和文档标签;生成的文档质心向量作为高维向量空间中的一个点,为每个文档集采用局部敏感哈希方法在内存中构建哈希索引结构;依据查询文本的文档质心向量,采用基于局部敏感哈希思想的查询方法在哈希索引结构中获取一个候选文档集;依据查询文本的文档标签,采用过滤‑细化的层次化框架在候选文档集中获取词移动距离度量下的最近邻文档。本发明设计的层次化查询方法应用于文档分类和检索时在效率和效果上获得了良好的平衡,使得用户在进行词移动距离度量下的文档查询时能够在保证准确性的情况下快速地获取目标文档。
-
公开(公告)号:CN107291895A
公开(公告)日:2017-10-24
申请号:CN201710476244.0
申请日:2017-06-21
Applicant: 浙江大学
Abstract: 本发明公开了一种快速的层次化文档查询方法。对文档集中的每个文档建立数据模型,对文档进行格式化处理获得文档质心向量和文档标签;生成的文档质心向量作为高维向量空间中的一个点,为每个文档集采用局部敏感哈希方法在内存中构建哈希索引结构;依据查询文本的文档质心向量,采用基于局部敏感哈希思想的查询方法在哈希索引结构中获取一个候选文档集;依据查询文本的文档标签,采用过滤-细化的层次化框架在候选文档集中获取词移动距离度量下的最近邻文档。本发明设计的层次化查询方法应用于文档分类和检索时在效率和效果上获得了良好的平衡,使得用户在进行词移动距离度量下的文档查询时能够在保证准确性的情况下快速地获取目标文档。
-