一种基于特定划分的主题模型下的文档生成方法

    公开(公告)号:CN107491417B

    公开(公告)日:2021-06-22

    申请号:CN201710548431.5

    申请日:2017-07-06

    Applicant: 复旦大学

    Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。

    一种基于特定划分的主题模型下的文档生成方法

    公开(公告)号:CN107491417A

    公开(公告)日:2017-12-19

    申请号:CN201710548431.5

    申请日:2017-07-06

    Applicant: 复旦大学

    CPC classification number: G06F17/30616 G06F17/16 G06F17/30657 G06F17/30705

    Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。

    一种根据阈值快速筛选重要区间的方法

    公开(公告)号:CN106874395A

    公开(公告)日:2017-06-20

    申请号:CN201710027127.6

    申请日:2017-01-15

    Applicant: 复旦大学

    CPC classification number: G06F17/30451

    Abstract: 本发明属于关系数据库技术领域,具体一种根据阈值快速筛选重要区间的方法。本发明方法包括:给定数据集D中的数据分布于维度A,对于A上任一区间,得到D在其上的相关程度,根据阈值筛选区间即为找出所有且无法再扩展的区间;首先计算数组LB,对于每一个右边界r,确保且;将右边界r从大到小遍历,如果对应的左边界比之前输出过的所有值都小,就将作为结果输出。本发明给出两种不同条件下适用的优化方法,能够快速筛选出所需结果,减小等待时间,提高用户在查询过程中的整体效率,并为对于未知数据集的探索操作提供更好的底层支持。

Patent Agency Ranking