-
公开(公告)号:CN115935977A
公开(公告)日:2023-04-07
申请号:CN202211409921.4
申请日:2022-11-10
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F40/289 , G06F40/284 , G06F40/295 , G06F18/22
Abstract: 本公开提出一种文本主题识别方法、装置及电子设备。该文本主题识别方法包括:获取待识别文本,并对待识别文本进行分词处理,得到第一候选词;将第一候选词与分词词典中的第二候选词进行匹配;从匹配失败的第一候选词中,确定第一主题词;从匹配成功的第一候选词中,确定与知识库中的关键词相匹配的第一候选词为第二主题词;基于第一主题词和第二主题词,确定待识别文本的主题。在文本中包括新型词汇时,本公开能够对新型词汇进行识别,并提取到准确的文本主题。