-
公开(公告)号:CN105843907A
公开(公告)日:2016-08-10
申请号:CN201610170691.9
申请日:2016-03-24
Applicant: 复旦大学
CPC classification number: G06F16/2246 , G06K9/6215
Abstract: 本发明属于数据挖掘技术领域,具体为一种内存索引结构?距离树构建及基于距离树的相似性连接算法。本发明针对海量高维数据的相似性连接问题,提出了一种新型内存索引结构?距离树。基于距离树的相似性连接算法是一种高效的分区?过滤两阶段算法:第一阶段,距离树可以根据数据的潜在分布对数据进行有效的分区,同时在每个分区内部保存分区过程中产生的计算;第二阶段,在每个分区内部,距离树可以利用保存的计算剪枝精算阶段大量不必要的计算。实验证明,距离树比已有的相似性连接算法具有更高的效率。