一种基于动态自聚合主题模型的文本聚合系统

    公开(公告)号:CN112507713A

    公开(公告)日:2021-03-16

    申请号:CN202011479879.4

    申请日:2020-12-15

    Abstract: 本发明涉及一种基于动态自聚合主题模型的文本聚合系统,包括文本获取模块,在设定的时间间隔的时间片上,获取待聚合短文本数据;预处理模块,对待聚合短文本数据进行数据清洗和文本分词形成文本数据集;动态自聚合主题模型,结合相邻时间片上的文本数据集,来捕获文本数据集中主题的多项分布和词的多项分布;吉布斯采样模块,用于对动态自聚合主题模型中的多项分布进行推导,统计出每个时间片上的主题分布和词分布;聚合模块,根据每个时间片上的主题分布和词分布,计算与主题相关的短文本聚合的概率。本发明自动聚合短文本为标准长文档,能克服短文本稀疏性问题,并且不需要启发式的前处理或者后处理技术,使得模型简单,处理效率较高。

    一种基于动态语义建模的短文本聚合方法

    公开(公告)号:CN112446220A

    公开(公告)日:2021-03-05

    申请号:CN202011479885.X

    申请日:2020-12-15

    Abstract: 本发明涉及一种基于动态语义建模的短文本聚合方法,包括以下步骤:在设定间隔的时间片上,获取待聚合短文本数据,进行数据预处理,形成数据集;在每个时间片上,通过建立动态自聚合主题模型捕获数据集中主题的多项分布和词的多项分布;采用吉布斯采样对动态自聚合主题模型中的多项分布进行推导,最后采样收敛时,统计每个时间片上的主题分布和词分布;根据每个时间片上的主题分布和词分布,计算与主题相关的短文本聚合的概率,自适应地聚合短文本。本发明自动聚合短文本为标准长文档,使得其能够捕获到更多的一致性主题,来克服短文本稀疏性问题,并且不需要启发式的前处理或者后处理技术,使得模型简单,处理效率较高。

Patent Agency Ranking