无监督非参数化文本分类方法、装置和计算机设备

    公开(公告)号:CN119226514A

    公开(公告)日:2024-12-31

    申请号:CN202411337891.X

    申请日:2024-09-24

    Abstract: 本申请涉及一种无监督非参数化文本分类方法、装置和计算机设备。所述方法包括:获取训练集和测试集;在测试集包括的多个测试文本中确定待分类文本;基于待分类文本和目标ES索引,在训练集中检索候选文本列表;将待分类文本和候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签;第一分类模块、第二分类模块以及第三分类模块分别对应不同的无监督非参数化文本分类算法;基于第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签,计算待分类文本的第一数量个分类标签。采用本方法能够提高文本分类效率和准确度。

Patent Agency Ranking