-
公开(公告)号:CN116401363A
公开(公告)日:2023-07-07
申请号:CN202310202945.0
申请日:2023-03-06
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及面向开放环境的弱监督持续文本分类方法、装置。方法包括:数据采集步骤;初步分类步骤;延迟分类决策步骤;种子词更新步骤。提出了一个弱监督文本分类的持续学习框架,通过延迟低置信度的分类决策,在分类准确性和决策及时性之间做出良好的权衡;并且实现了自动捕捉主题的语义变化,从而主动更新每个已知类别的种子词,做到了旧知识的维护和新知识的发现之间的平衡。