一种热点提取方法、存储介质及服务器

    公开(公告)号:CN112131463A

    公开(公告)日:2020-12-25

    申请号:CN202010950134.5

    申请日:2020-09-10

    摘要: 本发明提供了一种热点提取方法、存储介质及服务器,该热点提取方法包括:获取待提取热点的语料数据;根据语料数据对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;根据专业领域的roberta模型,提取多条文本中每条文本的特征向量;根据多条文本中每条文本的特征向量,构造孪生网络的训练样本;根据训练样本,通过孪生网络的方式调节专业领域的roberta模型的参数,得到目标的roberta模型;根据目标的roberta模型,提取多条文本中每条文本的特征向量;利用聚类算法对语料数据的多条文本进行聚类,得到多个类别;根据目标的roberta模型及多个类别提取语料数据的热点。更好地捕捉到语料数据中的独有信息;减少语料数据中字的unk(unknown)的情况;提高聚类及提取热点准确性。