-
公开(公告)号:CN116701628A
公开(公告)日:2023-09-05
申请号:CN202310676884.1
申请日:2023-06-08
Applicant: 北京林业大学
IPC: G06F16/35 , G06F16/335 , G06F16/33 , G06F40/216 , G06F40/289 , G06F40/30
Abstract: 本发明涉及一种无监督自适应领域术语识别方法及系统,其方法包括:S1:对待识别文本进行预处理,得到字符串序列;S2:分词处理字符串序列,对分词结果序列的邻接汉字对进行非偶然共现判定,得到非偶然相邻的汉字对集合NCP;S3:根据独立性假设检验,得到NCP中具有强关联性的汉字对,合并汉字对所在的字符串,进而获得满足非偶然性且具有强关联性的字符串作为备选术语;S4:过滤术语备选词中的垃圾字符串,得到过滤后的备选术语;S5:基于掩码语言模型获取过滤后的备选术语的词向量;S6:对备选术语和已有术语的词向量进行密度聚类和筛选,确定备选术语的所属领域。本发明提供的方法可对专业领域文本中的专业术语进行自动识别。