一种内存索引结构-距离树的构建及基于距离树的相似性连接算法

    公开(公告)号:CN105843907A

    公开(公告)日:2016-08-10

    申请号:CN201610170691.9

    申请日:2016-03-24

    Applicant: 复旦大学

    CPC classification number: G06F16/2246 G06K9/6215

    Abstract: 本发明属于数据挖掘技术领域,具体为一种内存索引结构?距离树构建及基于距离树的相似性连接算法。本发明针对海量高维数据的相似性连接问题,提出了一种新型内存索引结构?距离树。基于距离树的相似性连接算法是一种高效的分区?过滤两阶段算法:第一阶段,距离树可以根据数据的潜在分布对数据进行有效的分区,同时在每个分区内部保存分区过程中产生的计算;第二阶段,在每个分区内部,距离树可以利用保存的计算剪枝精算阶段大量不必要的计算。实验证明,距离树比已有的相似性连接算法具有更高的效率。

Patent Agency Ranking