-
公开(公告)号:CN112131463A
公开(公告)日:2020-12-25
申请号:CN202010950134.5
申请日:2020-09-10
申请人: 杭州中软安人网络通信股份有限公司
IPC分类号: G06F16/9535 , G06F40/30 , G06K9/62
摘要: 本发明提供了一种热点提取方法、存储介质及服务器,该热点提取方法包括:获取待提取热点的语料数据;根据语料数据对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;根据专业领域的roberta模型,提取多条文本中每条文本的特征向量;根据多条文本中每条文本的特征向量,构造孪生网络的训练样本;根据训练样本,通过孪生网络的方式调节专业领域的roberta模型的参数,得到目标的roberta模型;根据目标的roberta模型,提取多条文本中每条文本的特征向量;利用聚类算法对语料数据的多条文本进行聚类,得到多个类别;根据目标的roberta模型及多个类别提取语料数据的热点。更好地捕捉到语料数据中的独有信息;减少语料数据中字的unk(unknown)的情况;提高聚类及提取热点准确性。