-
公开(公告)号:CN113361201B
公开(公告)日:2023-08-25
申请号:CN202110645466.7
申请日:2021-06-10
Applicant: 南京大学
IPC: G06F30/27 , G06N3/04 , G06N3/084 , G06F111/08 , G06F119/10
Abstract: 本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。
-
公开(公告)号:CN113361201A
公开(公告)日:2021-09-07
申请号:CN202110645466.7
申请日:2021-06-10
Applicant: 南京大学
IPC: G06F30/27 , G06N3/04 , G06N3/08 , G06F111/08 , G06F119/10
Abstract: 本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。
-