文本处理方法、装置、设备及存储介质

    公开(公告)号:CN117150332A

    公开(公告)日:2023-12-01

    申请号:CN202311139259.X

    申请日:2023-09-05

    摘要: 本申请实施例公开了一种文本处理方法、装置、设备及存储介质,获得n个文本中各个文本的主题信息;对应获得的n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k,对n个主题信息进行1次或多次聚类处理,得到分类数k对应的1个或多个聚类结果;其中,多次聚类处理采用了至少两种相似度度量方法和/或采用了从n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同;基于得到的n个分类数对应的所有聚类结果确定n个主题信息的目标聚类结果。本申请提高了文本数量较小情况下的聚类效果。