-
公开(公告)号:CN108228721B
公开(公告)日:2021-06-04
申请号:CN201711290927.3
申请日:2017-12-08
Applicant: 复旦大学
Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。
-
公开(公告)号:CN108197154B
公开(公告)日:2021-07-23
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F16/28
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
-
公开(公告)号:CN106874395A
公开(公告)日:2017-06-20
申请号:CN201710027127.6
申请日:2017-01-15
Applicant: 复旦大学
IPC: G06F17/30
CPC classification number: G06F17/30451
Abstract: 本发明属于关系数据库技术领域,具体一种根据阈值快速筛选重要区间的方法。本发明方法包括:给定数据集D中的数据分布于维度A,对于A上任一区间,得到D在其上的相关程度,根据阈值筛选区间即为找出所有且无法再扩展的区间;首先计算数组LB,对于每一个右边界r,确保且;将右边界r从大到小遍历,如果对应的左边界比之前输出过的所有值都小,就将作为结果输出。本发明给出两种不同条件下适用的优化方法,能够快速筛选出所需结果,减小等待时间,提高用户在查询过程中的整体效率,并为对于未知数据集的探索操作提供更好的底层支持。
-
公开(公告)号:CN107491417B
公开(公告)日:2021-06-22
申请号:CN201710548431.5
申请日:2017-07-06
Applicant: 复旦大学
Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
公开(公告)号:CN108197154A
公开(公告)日:2018-06-22
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
公开(公告)号:CN107491417A
公开(公告)日:2017-12-19
申请号:CN201710548431.5
申请日:2017-07-06
Applicant: 复旦大学
CPC classification number: G06F17/30616 , G06F17/16 , G06F17/30657 , G06F17/30705
Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
-
-
-
-
-