一种LDA主题模型优化采样方法

    公开(公告)号:CN108763207A

    公开(公告)日:2018-11-06

    申请号:CN201810493178.2

    申请日:2018-05-22

    Applicant: 南京大学

    CPC classification number: G06F17/2785

    Abstract: 本发明公开了一种LDA主题模型优化采样方法,包括以下步骤:第一步,确定主题数目,并随机初始化每个单词的主题;第二步,对所有文档构建“词项‑文档”倒排索引;第三步,对吉布斯采样公式进行分解;第四步,确定迭代轮数,分轮迭代。每一轮迭代可分为以下四步:第一步,对采样公式第一部分构建AliasTable;第二步,对采样公式第二部分构建SparseAliasTable;第三步,对采样公式第三部分构建累积分布;第四步,根据采样公式对词项进行采样,得到新的主题并更新主题参数。本发明可以显著降低LDA主题模型采样方法的计算复杂度和采样复杂度,解决了现有采样方法模型学习质量低、模型收敛速度慢等问题。

Patent Agency Ranking