-
公开(公告)号:CN110516250A
公开(公告)日:2019-11-29
申请号:CN201910809204.2
申请日:2019-08-29
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F17/27
Abstract: 本申请提供一种新词的发现方法和装置,从文本集合中获取待处理文本后,利用词汇库将待处理文本划分为多个基本单元,然后根据文本集合,计算待处理文本中每两个基本单元之间的关联程度指标,根据待处理文本中每两个基本单元之间的关联程度指标,生成待处理文本中每一个基本单元的特征向量,进而利用各个基本单元的特征向量,计算得到每两个相邻的基本单元之间的相似度;根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本,得到多个子文本,最后将多个子文本作为新词加入所述词汇库。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词,从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。