一种基于增量学习的多标签数据流分类方法

    公开(公告)号:CN110110792A

    公开(公告)日:2019-08-09

    申请号:CN201910385391.6

    申请日:2019-05-09

    Applicant: 南京大学

    Abstract: 一种基于增量学习的多标签数据流分类方法,步骤一,初始训练阶段,将多标签数据流建模成固定实例数的数据块,根据初始的数据块,对于每个数据块进行朴素贝叶斯模型的训练以及应用KMeans算法得到簇心集合;训练好的朴素贝叶斯分类模型和簇心集合共同作为基分类器;步骤二,概念漂移检测阶段,初始学习阶段朴素贝叶斯集成模型中的基分类器数量达到一定个数时,分别从数据层面和模型层面进行概念漂移的检测;步骤三,增量更新阶段,当最新的数据块Dt到来时,针对集成模型中的每个基分类器,用Dt中的每个样本本身所携带的信息对基分类器进行更新,进行实例信息更新;能及时检测到数据流中的概念漂移,避免在遇到概念漂移时算法性能遭遇大幅下滑,而且能够对于最新到来的数据进行增量学习,保证了模型的性能。

    基于新标签发现和标签增量学习的动态多标签分类方法

    公开(公告)号:CN108717552A

    公开(公告)日:2018-10-30

    申请号:CN201810470711.3

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于新标签发现和标签增量学习的动态多标签分类方法,在初始阶段,根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型和初始集成聚类模型;数据流预测阶段,将具有新标签的样本放入一个缓冲区存储;模型更新阶段,构建新标签的子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类模型更新。该方法不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。

Patent Agency Ranking