-
公开(公告)号:CN115062147A
公开(公告)日:2022-09-16
申请号:CN202210690741.1
申请日:2022-06-17
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/35 , G06F40/295 , G06K9/62
Abstract: 本发明涉及一种融合命名实体频繁模式特征的篇章级文本事件分类方法,属于信息处理技术领域。本发明旨在挖掘出长文档中的核心特征并发现其关键词,并通过这些特征来对篇章级文本事件进行分类。同时本发明提出了融合命名实体频繁模式特征的分类模型来解决篇章级文本事件分类问题。分类模型通过泛化实体语义信息以增强提取到的特征的鲁棒性,同时结合频繁项集挖掘算法和信息增益指数来挖掘篇章级文本的关键特征。最后,使用朴素贝叶斯分类法对篇章级文本事件进行分类。