融合置信度准则和多样性准则的主动学习样本选择策略

    公开(公告)号:CN108875816A

    公开(公告)日:2018-11-23

    申请号:CN201810567407.0

    申请日:2018-06-05

    Inventor: 王晓军 潘龙飞

    CPC classification number: G06K9/6223 G06N3/0454

    Abstract: 本发明涉及融合置信度准则和多样性准则的主动学习样本选择策略,包括以下步骤:基于已有的标记数据集DL训练模型Mt;使用Mt对当前未标记数据集DU进行预测,得到预测向量集Pt;根据Pt计算每个样本的信息熵,选择熵值最大的前K个样本;根据Mt提取K个未标记样本的特征表示,得到特征向量集Ft;对Ft进行密度峰值聚类,分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本,交由专家标记,加入已标记数据集DL,同时从未标记数据集DU中删除相应样本;利用当前已标记数据集DL对Mt进行更新得到Mt+1;重复上述步骤,直到所有样本标记结束或达到指定迭代次数完成整个算法流程。

Patent Agency Ranking