一种面向长尾类别分布的图像分类方法

    公开(公告)号:CN119206288A

    公开(公告)日:2024-12-27

    申请号:CN202411061909.8

    申请日:2024-08-05

    Applicant: 东南大学

    Inventor: 魏通 康凯 张敏灵

    Abstract: 本发明公开了一种面向长尾类别分布的图像分类方法,包括:用户收集训练数据及其类别标签;利用数据混合技术对训练数据进行线性插值,构造新的标签样本对;使用新构造的标签样本对训练三个不同的专家模型;利用无标签的测试数据学习专家模型在该测试分布上的最优集成权重,提升多专家测试时的泛化性能;使用最优集成后的专家模型对测试数据再次进行预测,得到最终分类结果;如果用户对预测结果满意,则结束,否则收集更多的训练数据及标签,返回执行第二个步骤。本发明提升多专家集成模型在未知测试分布上的泛化效果,为解决真实场景中的长尾问题提供新的方案。

    一种基于视觉-语言预训练模型的长尾多标记图像分类方法

    公开(公告)号:CN119048810A

    公开(公告)日:2024-11-29

    申请号:CN202411076021.1

    申请日:2024-08-07

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法,获取具有真实标记的多标记样本数据;将传统CLIP预训练模型模型中softmax层替换为sigmoid层,适应多标记任务;构建长尾多标记图像分类模型并对其进行训练;将语义融合特征与文本特征进行残差连接,与图像特征进行余弦相似度计算,并经过sigmoid得到预测概率;由重加权长尾损失函数对模型进行监督训练,并应用参数高效微调避免过拟合问题;针对待测试的图像数据,经过数据增强策略后,输入到训练后的模型中进行预测,最终获得标签的预测结果,实现长尾多标记图像分类。本发明充分利用了标签之间的相关性,缓解长尾类别分布引发的尾部类分类精度不足的影响,提高了多标记分类的准确性。

Patent Agency Ranking