一种基于平衡损失函数的长尾分布投诉举报文本分类方法

    公开(公告)号:CN118069836A

    公开(公告)日:2024-05-24

    申请号:CN202410094505.2

    申请日:2024-01-23

    Abstract: 本发明公开了一种基于平衡损失函数的长尾分布投诉举报文本分类方法,具体包括以下步骤:首先对数据进行数据清洗、去停用词等操作,为后续文本分类过程减少干扰项;然后通过BERT预训练模型进行预训练和特征提取,获得与类别信息最相关的特征向量;最后通过全连接层分类器获取分类结果。同时,本发明在经典损失函数的基础上进行优化,提出一种Gumbel分布平衡损失函数,一方面采用Gumbel激活函数替代一般激活函数,为头部类和尾部类赋予不同的梯度;另一方面引入正则化项,抑制尾部类的过拟合,提高其泛化性。本发明显著提高尾部类的分类效果,从而使整体的分类性能有所提升,能够有效解决投诉举报文本分类任务中的长尾分布问题。

Patent Agency Ranking