-
公开(公告)号:CN107633009A
公开(公告)日:2018-01-26
申请号:CN201710690612.1
申请日:2017-08-14
Applicant: 东南大学
Abstract: 本发明公开了一种基于标记置信度的弱监督文档分类方法,该方法适用于主题有歧义的样例文档的文档分类方法。该方法包括以下步骤:(1)用户从包含主题的歧义的文档库中选择样例文档,其中样例文档需要涵盖各个类型文档,且数目大致均衡;(2)使用标记置信度的方式表示标记信息;(3)使用预设的分类方法对转换后的文档对象进行学习;(4)根据学习所得的预测模型对文档存储设备中的文档进行分类;(5)如果用户对上一步预测的结果满意则结束,否则从有歧义的文档库中选择更多的样例进行反馈,转到步骤(2)。