一种用于高维文本数据的并行k-means算法

    公开(公告)号:CN108763576A

    公开(公告)日:2018-11-06

    申请号:CN201810576890.9

    申请日:2018-05-28

    CPC classification number: G06K9/6223 G06N3/0454 G06N3/084

    Abstract: 本发明属于自然语言处理和机器学习的交叉领域,提供一种用于高维文本数据的并行k‑means算法。该算法首先将文本数据向量化,其次对该向量化后的矩阵建立降维模型,将高维数据转化为具有高效特征的低维数据;然后通过优化k‑means聚类算法进一步提高算法准确度,再对降维后的数据进行聚类,并通过GPU以及MPI技术实现算法并行化,最终实现高维文本数据的准确度以及效率的提高。本发明能够大幅度提高文本聚类的准确度,提高算法的运行速率以及可移植性。

    一种用于高维文本数据的并行k-means算法

    公开(公告)号:CN108763576B

    公开(公告)日:2021-01-19

    申请号:CN201810576890.9

    申请日:2018-05-28

    Abstract: 本发明属于自然语言处理和机器学习的交叉领域,提供一种用于高维文本数据的并行k‑means算法。该算法首先将文本数据向量化,其次对该向量化后的矩阵建立降维模型,将高维数据转化为具有高效特征的低维数据;然后通过优化k‑means聚类算法进一步提高算法准确度,再对降维后的数据进行聚类,并通过GPU以及MPI技术实现算法并行化,最终实现高维文本数据的准确度以及效率的提高。本发明能够大幅度提高文本聚类的准确度,提高算法的运行速率以及可移植性。

Patent Agency Ranking