-
公开(公告)号:CN108875816A
公开(公告)日:2018-11-23
申请号:CN201810567407.0
申请日:2018-06-05
Applicant: 南京邮电大学
CPC classification number: G06K9/6223 , G06N3/0454
Abstract: 本发明涉及融合置信度准则和多样性准则的主动学习样本选择策略,包括以下步骤:基于已有的标记数据集DL训练模型Mt;使用Mt对当前未标记数据集DU进行预测,得到预测向量集Pt;根据Pt计算每个样本的信息熵,选择熵值最大的前K个样本;根据Mt提取K个未标记样本的特征表示,得到特征向量集Ft;对Ft进行密度峰值聚类,分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本,交由专家标记,加入已标记数据集DL,同时从未标记数据集DU中删除相应样本;利用当前已标记数据集DL对Mt进行更新得到Mt+1;重复上述步骤,直到所有样本标记结束或达到指定迭代次数完成整个算法流程。