-
公开(公告)号:CN115099188A
公开(公告)日:2022-09-23
申请号:CN202210708418.2
申请日:2022-06-22
Applicant: 南京邮电大学
IPC: G06F40/126 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于词嵌入和生成式神经网络的主题挖掘方法,属于自然语言处理领域。本方法包括:对语料库中的文本进行预处理;将文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;文档主题向量经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标,对模型进行训练。本发明利用多维高斯分布在词向量空间对主题进行建模,融入了词向量中的外部语义知识,有效提高了主题的一致性;同时采用优化最大平均差的方法进行狄利克雷先验分布对齐,提高了主题的准确性。