-
公开(公告)号:CN108197154A
公开(公告)日:2018-06-22
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
公开(公告)号:CN107491417A
公开(公告)日:2017-12-19
申请号:CN201710548431.5
申请日:2017-07-06
Applicant: 复旦大学
CPC classification number: G06F17/30616 , G06F17/16 , G06F17/30657 , G06F17/30705
Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
公开(公告)号:CN101179594A
公开(公告)日:2008-05-14
申请号:CN200710170790.8
申请日:2007-11-22
Applicant: 复旦大学
Abstract: 本发明发球自组织网络技术领域,具体是一种无线自组织网络环境中基于服务距离的服务发现方法。包括服务广告报文的定义和产生算法、服务信息缓存的构造和更新算法和基于服务距离的高效服务发现方法。本方法不仅避免了广播式服务发现方法存在的可伸缩性差、网络负载重、无法适应无线自组织网络环境的问题,而且,利用服务距离信息使用户能更快地找到更稳定可靠的服务,提高了服务发现的效率。
-
公开(公告)号:CN118779499A
公开(公告)日:2024-10-15
申请号:CN202410721106.4
申请日:2024-06-05
Applicant: 复旦大学
IPC: G06F16/9032 , G06N20/00
Abstract: 本发明提供一种基于子空间编码和机器学习模型的洞察发现方法及系统,主要应用场景为探索式数据分析中的自动洞察发现环节。本发明中,针对直接使用数据中的属性列构建特征向量会导致洞察发现过程中的数据范围无法有效区分的问题,通过基于给定的数据范围所对应的数据子空间完成所有的特征提取和编码过程,保证数据范围向量化的唯一性;针对多个数据范围的计算顺序问题,采用随机森林模型对数据范围进行优先级预测,从而在给定的时间预算内对最有可能蕴含洞察的数据范围进行洞察挖掘。本发明与其他现存探索性数据分析过程中的洞察推荐方法相比,无论是效率还是效果都更为优秀,能够在更短的时间挖掘出更有价值的数据洞察并返回给分析人员。
-
公开(公告)号:CN118734817A
公开(公告)日:2024-10-01
申请号:CN202410855453.6
申请日:2024-06-28
Applicant: 复旦大学
IPC: G06F40/177 , G06F40/151 , G06F16/22 , G06F16/28 , G06F18/2415 , G06N3/0475 , G06N3/094 , G06N3/0455
Abstract: 本发明提供了一种面向关系型表格的数据生成方法及装置,具有这样的特征,包括以下步骤:步骤S1,根据指定表格构建训练数据集;步骤S2,构建判别器和生成器;步骤S3,根据训练数据集,对判别器和生成器进行对抗训练,得到训练好的生成器作为数据合成模型;步骤S4,将随机采样的噪声向量与条件向量进行拼接,得到输入向量;步骤S5,将输入向量输入数据合成模型,得到合成数据向量;步骤S6,对合成数据向量进行转换,得到合成表格数据。总之,本方法能够生成更贴近表格数据的合成数据。
-
公开(公告)号:CN118656361A
公开(公告)日:2024-09-17
申请号:CN202410829778.7
申请日:2024-06-25
Applicant: 复旦大学
IPC: G06F16/21 , G06F16/22 , G06F16/26 , G06F16/2458
Abstract: 本发明提供了一种面向探索性数据分析的数据洞察装置,具有这样的特征,包括离线构建模块用于根据目标数据集,构建对应的模式立方体;在线分析模块用于根据分析指令和模式立方体,计算得到洞察结果,其中,在线分析模块包括:数据范围生成单元用于生成数据范围;同质数据范围生成单元用于生成各个数据范围对应的同质数据范围;在线模式计算单元用于根据模式立方体,计算各个同质数据范围对应的数据模式;洞察生成单元用于对各个同质数据范围,将该同质数据范围的数据模式进行共异分析,得到对应的洞察;推荐单元用于对所有洞察进行价值分析生成洞察结果。总之,本装置能够避免对数据范围模式的重复计算,提高洞察发现效率。
-
公开(公告)号:CN118568129A
公开(公告)日:2024-08-30
申请号:CN202410628960.6
申请日:2024-05-21
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F18/27 , G06F18/25 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本发明属于数据库查询技术领域,具体为一种基于混合自回归模型与采样的查询基数估计方法。本发明包括构建一种多路并行掩码自编码模型,该模型可以更好地学习数据中的联合概率分布;一种离线连接键采样的基数估计方法,该方法通过依照连接键在多表连接中进行单表采样,以完成基数估计;一种将自回归模型与连接键采样混合的基数估计方法,可以结合两者的基数估计优势,提高基数估计方法的整体准确性。本发明可以减少传统自回归模型进行基数估计时的查询高分位误差,提高基数估计的稳定性,提高查询优化器生成的查询计划质量,加速数据库的查询执行。
-
公开(公告)号:CN110619004B
公开(公告)日:2023-05-02
申请号:CN201910750750.3
申请日:2019-08-15
Applicant: 复旦大学
IPC: G06F16/2458
Abstract: 本发明属于数据分析技术领域,具体为一种数据挖掘中数据分析方法的推荐方法。本发明的分析方法推荐方法主要包含四个部分:(1)基于数据集的最近邻推荐;(2)基于分析方法的协同过滤;(3)神经协同过滤;(4)推荐结果的融合。本发明通过基于数据分析的交互历史,挖掘数据集和分析方法的隐语义作为推荐依据,最终返回适合数据集的分析方法。本发明可帮助用户快速找到合适的分析方法,挖掘数据集中的信息。
-
公开(公告)号:CN114756772A
公开(公告)日:2022-07-15
申请号:CN202210370416.7
申请日:2022-04-09
Applicant: 复旦大学
IPC: G06F16/9537 , G06F16/2458 , G06F16/906
Abstract: 本发明属于数据分析技术领域,具体为一种时空数据查询处理中的抽样系统。本发明系统包括时空网格划分器、样本生成器:时空网格划分器按照一定粒度在时空坐标系上划分网格,并给每个网格分配样本容量;具体的划分粒度可以根据实际需求定义;样本生成器按照划分器分配的样本容量在每个网格内均匀采样,并汇总成最终样本。本发明可帮助分析人员从时空大数据中获取更为全面的样本,发掘容易被简单均匀采样遗漏的信息,增加样本分析结论的可靠性。
-
公开(公告)号:CN101840434A
公开(公告)日:2010-09-22
申请号:CN201010175152.7
申请日:2010-05-13
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于空间数据库技术领域,具体是一种在空间网络数据库中查找最近k个点对的广度优先方法。在该方法中,输入两个顶点集合S和T以及正整数k,以集合S中每个顶点Si作为中心点,以集合T为查询目标顶点集合,计算每个Si的第一个最近邻居,比较这些最近邻居与其中心点的距离,选取距离最小的最近邻居及其中心点作为第一个最近点对;然后查找第一个最近点对的中心点的第二个最近邻居,选取距离第二小的作为第二个最近点对;重复以上过程直到找到第k个最近点对。通过上述的广度优先查找顺序,既能找到距离最小的k个点对,又大大减少了查找过程中最近邻居的查找次数,从而降低了在查找过程中对空间网络的顶点和边的访问次数,加快了查找速度。
-
-
-
-
-
-
-
-
-