一种提高分类学习数据集质量方法、系统、装置及存储介质

    公开(公告)号:CN113919439A

    公开(公告)日:2022-01-11

    申请号:CN202111233079.9

    申请日:2021-10-22

    Inventor: 王玉峰 王学刚

    Abstract: 本发明公开了一种提高分类学习数据集质量方法、系统、装置及存储介质,属于图像分类技术领域,方法包括:利用预设计的更新方法更新数据集;响应于检测到数据集中干净标签占比不提高,输出数据集;响应于检测到数据集中干净标签占比提高,再次利用预设计的更新方法更新数据集;所述预设计的更新方法,包括:通过锚点样本的网络输出获取标签的错误转移概率矩阵;根据标签的错误转移概率矩阵获取标签的错误率和权重,根据标签的错误率和权重获取数据集的加权平均错误率;对数据样本根据标签标注错误的概率大小进行排序,结合数据集的加权平均错误率筛选出错误标签样本,利用标签的错误转移概率矩阵修正错误标签样本的标签,更新数据集。

Patent Agency Ranking