-
公开(公告)号:CN108763576A
公开(公告)日:2018-11-06
申请号:CN201810576890.9
申请日:2018-05-28
Applicant: 大连理工大学
CPC classification number: G06K9/6223 , G06N3/0454 , G06N3/084
Abstract: 本发明属于自然语言处理和机器学习的交叉领域,提供一种用于高维文本数据的并行k‑means算法。该算法首先将文本数据向量化,其次对该向量化后的矩阵建立降维模型,将高维数据转化为具有高效特征的低维数据;然后通过优化k‑means聚类算法进一步提高算法准确度,再对降维后的数据进行聚类,并通过GPU以及MPI技术实现算法并行化,最终实现高维文本数据的准确度以及效率的提高。本发明能够大幅度提高文本聚类的准确度,提高算法的运行速率以及可移植性。
-
公开(公告)号:CN108763576B
公开(公告)日:2021-01-19
申请号:CN201810576890.9
申请日:2018-05-28
Applicant: 大连理工大学
Abstract: 本发明属于自然语言处理和机器学习的交叉领域,提供一种用于高维文本数据的并行k‑means算法。该算法首先将文本数据向量化,其次对该向量化后的矩阵建立降维模型,将高维数据转化为具有高效特征的低维数据;然后通过优化k‑means聚类算法进一步提高算法准确度,再对降维后的数据进行聚类,并通过GPU以及MPI技术实现算法并行化,最终实现高维文本数据的准确度以及效率的提高。本发明能够大幅度提高文本聚类的准确度,提高算法的运行速率以及可移植性。
-