针对探索性查询的高效抽样方法

    公开(公告)号:CN108776707A

    公开(公告)日:2018-11-09

    申请号:CN201810625076.1

    申请日:2018-06-17

    Applicant: 复旦大学

    Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。

    一种层次关系数据上关键字检索结果的聚合摘要方法

    公开(公告)号:CN102214216B

    公开(公告)日:2013-02-27

    申请号:CN201110150869.0

    申请日:2011-06-07

    Applicant: 复旦大学

    Inventor: 何震瀛 胡昊 汪卫

    Abstract: 本发明属于关系数据库技术领域,具体为一种层次关系数据上关键字检索结果的聚合摘要方法。该方法的步骤为:给定具有层次关系H的关系数据库D和其上的一个检索Q以及n个检索结果S,S中为每一条结果元组t1、t2、…、tn,根据H上的层次关系,按照最低上层最小覆盖聚集的原则采用按序连接方法将n条检索结果t1、t2、…、tn聚合成为最大最低上层最小覆盖聚集,并对这些聚合结果根据最大覆盖的原则,以迭代查找最大覆盖,在查找的过程中进行剪枝,从而找出贪心结果I。本发明在聚合过程中根据层次关系减少了连接操作,在摘要过程中引入剪枝方法减少时间代价,从而使聚合摘要效率更高。

    面向服务的自组织网络中基于分簇的服务发布和发现方法

    公开(公告)号:CN101163158B

    公开(公告)日:2012-02-29

    申请号:CN200710170787.6

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本发明属于自组织网络技术领域,具体是一种面向服务的自组织网络上基于分簇的服务发布和发现方法,本方法分为簇维护、服务发布和服务发现三个部分。簇维护分为分簇、簇更新两部分;服务发布包括服务信息建立和服务信息更新两个部分;服务发现指在完成分簇和服务发布以后,节点通过簇头来发现自组织网络上存在的基本服务。本发明能够有效地避免已有服务发布和服务发现方法存在的广播风暴现象;在本方法中还可以使用可替代服务,增强服务发现的效率。

    一种在无线自组织网络中组合服务的执行方法

    公开(公告)号:CN101163106B

    公开(公告)日:2011-02-09

    申请号:CN200710170786.1

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本发明属于自组织网络技术领域,具体为一种在无线自组织网络中的组合服务执行方法。其步骤包括组合服务请求方生成原始组合服务请求包,并将该包发向组合服务中的基本服务提供节点;基本服务提供节点根据收到输入数据执行基本服务,读取组合服务的执行有向无环图。并把基本服务输出数据组成新组合服务请求包发向下一个节点,最后向组合服务发起节点发送一个确认应答包;组合服务发起节点收到全部确认应答包,表示该组合服务执行成功。本发明能够有效地避免传统组合服务执行过程中由于控制中心的存在而出现的三角路由现象,从而减少在组合服务执行的过程中网络传输,并且能很好地适应自组织网络的网络拓扑多变和无中心的特点。

    一种面向近似查询处理的和积网络与残差神经网络混合模型

    公开(公告)号:CN115794880A

    公开(公告)日:2023-03-14

    申请号:CN202211379710.0

    申请日:2022-11-04

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种面向近似查询处理的和积网络与残差神经网络混合模型。本发明包括两个模块:基于和积网络的无监督学习模块,针对数据集的不同样本,训练多个相互独立的和积网络模型来捕捉数据的整体分布规律,每个和积网络模型等价于原始数据集的一个密度估计器,可以通过该模型计算出聚合查询的近似结果;基于残差神经网络的监督学习模块,针对一个给定的查询,将该查询在训练好的多个和积网络中预测出的查询结果以及和积网络预测过程中的特征向量作为输入,用查询的真实结果作为标签训练深度神经网络,当用户查询输入时,该模型能够输出经过校正后具有更高准确性的近似查询结果。本发明在大幅降低查询执行时延的同时提供具有较高准确性的近似查询结果。

    交互式文档探索的在线子集主题建模方法

    公开(公告)号:CN108197154B

    公开(公告)日:2021-07-23

    申请号:CN201711291086.8

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。

    数据挖掘中数据分析方法的推荐方法

    公开(公告)号:CN110619004A

    公开(公告)日:2019-12-27

    申请号:CN201910750750.3

    申请日:2019-08-15

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种数据挖掘中数据分析方法的推荐方法。本发明的分析方法推荐方法主要包含四个部分:(1)基于数据集的最近邻推荐;(2)基于分析方法的协同过滤;(3)神经协同过滤;(4)推荐结果的融合。本发明通过基于数据分析的交互历史,挖掘数据集和分析方法的隐语义作为推荐依据,最终返回适合数据集的分析方法。本发明可帮助用户快速找到合适的分析方法,挖掘数据集中的信息。

    大型语料库上的快速文本聚类方法

    公开(公告)号:CN108228721A

    公开(公告)日:2018-06-29

    申请号:CN201711290927.3

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。

    一种根据阈值快速筛选重要区间的方法

    公开(公告)号:CN106874395A

    公开(公告)日:2017-06-20

    申请号:CN201710027127.6

    申请日:2017-01-15

    Applicant: 复旦大学

    CPC classification number: G06F17/30451

    Abstract: 本发明属于关系数据库技术领域,具体一种根据阈值快速筛选重要区间的方法。本发明方法包括:给定数据集D中的数据分布于维度A,对于A上任一区间,得到D在其上的相关程度,根据阈值筛选区间即为找出所有且无法再扩展的区间;首先计算数组LB,对于每一个右边界r,确保且;将右边界r从大到小遍历,如果对应的左边界比之前输出过的所有值都小,就将作为结果输出。本发明给出两种不同条件下适用的优化方法,能够快速筛选出所需结果,减小等待时间,提高用户在查询过程中的整体效率,并为对于未知数据集的探索操作提供更好的底层支持。

    一种根据维基百科中话题信息使查询词项多样化的方法

    公开(公告)号:CN103455564A

    公开(公告)日:2013-12-18

    申请号:CN201310356319.3

    申请日:2013-08-15

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种根据维基百科中话题信息使查询词项多样化的方法。该方法的步骤为:给定目标查询词t0,候选扩展集T,维基百科中的话题信息C和页面信息D(C),相似性函数sim1、sim2,整数k和实数(),通过贪心方法,在每一轮迭代中寻找当前与目标查询词t0既相似又同时具有最大的话题多样性的词项,直至k个词项都被找到。本发明在扩展查询此项时引入了外部的维基百科分类信息,从而使扩展的多样性得以更高。

Patent Agency Ranking