一种基于噪声标签学习的众包获取标签数据清洗方法

    公开(公告)号:CN113361201B

    公开(公告)日:2023-08-25

    申请号:CN202110645466.7

    申请日:2021-06-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。

    一种基于噪声标签学习的众包获取标签数据清洗方法

    公开(公告)号:CN113361201A

    公开(公告)日:2021-09-07

    申请号:CN202110645466.7

    申请日:2021-06-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。

Patent Agency Ranking