发明公开
- 专利标题: 一种针对Mixup数据增强的长尾数据处理方法及装置
-
申请号: CN202310709870.5申请日: 2023-06-15
-
公开(公告)号: CN116824295A公开(公告)日: 2023-09-29
- 发明人: 张弦 , 王威 , 王鹏 , 胡健 , 吴小志 , 赵仰东 , 张锦辉 , 王想 , 赵裕啸
- 申请人: 江苏瑞中数据股份有限公司 , 南瑞集团有限公司
- 申请人地址: 江苏省南京市雨花台区软件大道180号;
- 专利权人: 江苏瑞中数据股份有限公司,南瑞集团有限公司
- 当前专利权人: 南京南瑞瑞中数据股份有限公司,南瑞集团有限公司
- 当前专利权人地址: 211106 江苏省南京市江宁区秣陵街道诚信大道19号
- 代理机构: 南京苏高专利商标事务所
- 代理商 李淑静
- 主分类号: G06V10/774
- IPC分类号: G06V10/774 ; G06V10/764 ; G06V10/82 ; G06N3/084
摘要:
本发明公开了一种针对Mixup数据增强的长尾数据处理方法及装置,方法包括:输入N对原始长尾数据集图片及其对应标签;通过模拟Beta分布得到一个服从Beta分布的参数θ,基于参数θ使用Mixup按比例结合两个样本,生成新样本;将新样本作为模型的输入,得到输出;基于θ计算使用Mixup后的类间间隔;将变换后的类间间隔应用到空间变换间隔损失函数,计算总损失并更新模型参数,完成模型的训练;利用训练好的模型对长尾分布的图像数据进行分类识别。本发明利用参数θ变换类间间隔,解决了长尾数据集中的重平衡损失函数与使用Mixup后收缩的类间间隔不匹配的问题,提高图像识别精度。