-
公开(公告)号:CN112200255A
公开(公告)日:2021-01-08
申请号:CN202011110339.9
申请日:2020-10-16
Applicant: 浙江大学
Abstract: 本发明提供一种针对样本集的信息去冗余方法,所述方法包括:获取待处理样本及对应的可训练标签,得到原始待处理样本集;基于预训练的机器学习模型对每条样本进行特征抽取,得到原始样本集的特征向量集合;输入特征向量集合至可学习的样本选择器模型,对特征向量集合进行样本挑选,根据预设阈值获取有代表性的特征向量子集;获取特征向量子集对应的原始样本作为去除冗余信息后的子样本集合。本发明技术方案,可以对原始样本集合进行高效精简,去除冗余信息而保留有价值信息的样本,可以提升算法在样本集上的训练效率。
-
公开(公告)号:CN112200255B
公开(公告)日:2021-09-14
申请号:CN202011110339.9
申请日:2020-10-16
Applicant: 浙江大学
Abstract: 本发明提供一种针对样本集的信息去冗余方法,所述方法包括:获取待处理样本及对应的可训练标签,得到原始待处理样本集;基于预训练的机器学习模型对每条样本进行特征抽取,得到原始样本集的特征向量集合;输入特征向量集合至可学习的样本选择器模型,对特征向量集合进行样本挑选,根据预设阈值获取有代表性的特征向量子集;获取特征向量子集对应的原始样本作为去除冗余信息后的子样本集合。本发明技术方案,可以对原始样本集合进行高效精简,去除冗余信息而保留有价值信息的样本,可以提升算法在样本集上的训练效率。
-