发明授权
- 专利标题: 一种融合主题信息的关键词生成方法
-
申请号: CN202110525483.7申请日: 2021-05-13
-
公开(公告)号: CN113255344B公开(公告)日: 2024-05-17
- 发明人: 马甲林 , 成洁怡 , 魏丹丹 , 焦英杰 , 李翔 , 朱全银 , 赵春晓
- 申请人: 淮阴工学院
- 申请人地址: 江苏省淮安市经济技术开发区枚乘东路1号
- 专利权人: 淮阴工学院
- 当前专利权人: 淮阴工学院
- 当前专利权人地址: 江苏省淮安市经济技术开发区枚乘东路1号
- 代理机构: 淮安市科文知识产权事务所
- 代理商 吴晶晶
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; G06F40/237 ; G06F40/30
摘要:
本发明涉及自然语言处理和关键词提取技术领域,公开了一种融合主题信息的关键词生成方法,对语料库C进行预处理得到向量模型;采用word2vec对Xbow预训练得到词向量Xseq;将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ;将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;将文档‑主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;采用集束搜索,生成关键词的排名列表。与现有技术相比,本发明不仅强调了标题对整个文档的主导作用,还使得生成的词更加契合文档的主题。
公开/授权文献
- CN113255344A 一种融合主题信息的关键词生成方法 公开/授权日:2021-08-13