一种基于标记置信度的弱监督文档分类方法

    公开(公告)号:CN107633009A

    公开(公告)日:2018-01-26

    申请号:CN201710690612.1

    申请日:2017-08-14

    Applicant: 东南大学

    Inventor: 张敏灵 唐才智

    Abstract: 本发明公开了一种基于标记置信度的弱监督文档分类方法,该方法适用于主题有歧义的样例文档的文档分类方法。该方法包括以下步骤:(1)用户从包含主题的歧义的文档库中选择样例文档,其中样例文档需要涵盖各个类型文档,且数目大致均衡;(2)使用标记置信度的方式表示标记信息;(3)使用预设的分类方法对转换后的文档对象进行学习;(4)根据学习所得的预测模型对文档存储设备中的文档进行分类;(5)如果用户对上一步预测的结果满意则结束,否则从有歧义的文档库中选择更多的样例进行反馈,转到步骤(2)。

Patent Agency Ranking