一种基于主题词条的跨类型数据的概率聚类方法

    公开(公告)号:CN101408901A

    公开(公告)日:2009-04-15

    申请号:CN200810229043.1

    申请日:2008-11-26

    Applicant: 东北大学

    Abstract: 一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。

    基于最大间隙空间映射的高维数据索引方法

    公开(公告)号:CN101266607A

    公开(公告)日:2008-09-17

    申请号:CN200810011323.5

    申请日:2008-05-09

    Applicant: 东北大学

    Abstract: 一种基于最大间隙空间映射的高维数据索引方法,属于数据库领域,包括以下步骤:步骤1进行最大间隙空间映射计算给定数据空间的每个维间隙值,选择维间隙值较大的前K值,将给定空间的实际数据点投影到K个维空间;步骤2构造MS-treeMS-tree首先找到适当的插入节点M,如果该节点没有满,则该对象被直接插入到该节点中;如果该节点已满,则该节点将被分裂,然后检查插入对象是否在结点M的MBR中,如果不在,则更新M的MBR并将原始空间映射到一个低维空间;步骤3进行相似性查找本发明的有益效果是通过减少假活动子树的访问来提高查询性能,因此,减少对假活动子空间的访问次数来改善索引相似性查询的性能。

Patent Agency Ranking