一种面向近似查询处理的和积网络与残差神经网络混合模型

    公开(公告)号:CN115794880A

    公开(公告)日:2023-03-14

    申请号:CN202211379710.0

    申请日:2022-11-04

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种面向近似查询处理的和积网络与残差神经网络混合模型。本发明包括两个模块:基于和积网络的无监督学习模块,针对数据集的不同样本,训练多个相互独立的和积网络模型来捕捉数据的整体分布规律,每个和积网络模型等价于原始数据集的一个密度估计器,可以通过该模型计算出聚合查询的近似结果;基于残差神经网络的监督学习模块,针对一个给定的查询,将该查询在训练好的多个和积网络中预测出的查询结果以及和积网络预测过程中的特征向量作为输入,用查询的真实结果作为标签训练深度神经网络,当用户查询输入时,该模型能够输出经过校正后具有更高准确性的近似查询结果。本发明在大幅降低查询执行时延的同时提供具有较高准确性的近似查询结果。

    交互式文档探索的在线子集主题建模方法

    公开(公告)号:CN108197154B

    公开(公告)日:2021-07-23

    申请号:CN201711291086.8

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。

    数据挖掘中数据分析方法的推荐方法

    公开(公告)号:CN110619004A

    公开(公告)日:2019-12-27

    申请号:CN201910750750.3

    申请日:2019-08-15

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种数据挖掘中数据分析方法的推荐方法。本发明的分析方法推荐方法主要包含四个部分:(1)基于数据集的最近邻推荐;(2)基于分析方法的协同过滤;(3)神经协同过滤;(4)推荐结果的融合。本发明通过基于数据分析的交互历史,挖掘数据集和分析方法的隐语义作为推荐依据,最终返回适合数据集的分析方法。本发明可帮助用户快速找到合适的分析方法,挖掘数据集中的信息。

    大型语料库上的快速文本聚类方法

    公开(公告)号:CN108228721A

    公开(公告)日:2018-06-29

    申请号:CN201711290927.3

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。

    无线自组织网络环境中基于服务距离的服务发现方法

    公开(公告)号:CN101179594B

    公开(公告)日:2012-09-05

    申请号:CN200710170790.8

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本发明发球自组织网络技术领域,具体是一种无线自组织网络环境中基于服务距离的服务发现方法。包括服务广告报文的定义和产生算法、服务信息缓存的构造和更新算法和基于服务距离的高效服务发现方法。本方法不仅避免了广播式服务发现方法存在的可伸缩性差、网络负载重、无法适应无线自组织网络环境的问题,而且,利用服务距离信息使用户能更快地找到更稳定可靠的服务,提高了服务发现的效率。

    一种在无线自组织网络中组合服务的执行路径的发现方法

    公开(公告)号:CN101163107B

    公开(公告)日:2011-02-09

    申请号:CN200710170788.0

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本方法属于自组织网络技术领域,具体是一种自组织网络中组合服务的执行路径的发现方法。该方法依次包括如下步骤:首先服务请求节点发送初始的路径探测包,路径探测包中包含组合服务的服务有向无环图、基本服务所在节点列表和服务执行有向无环图;然后基本服务提供节点处理路径探测包;最后服务请求节点接收服务执行有向无环图。服务请求节点收到第一个反馈回来的服务执行有向无环图,说明该服务执行有向无环图所描述的执行方案在当前网络环境下具有最快的网络传输和节点响应速度,即是当前情况下最快的执行方案。

    数据集的处理和SQL-自然语言翻译模型的测试的方法和装置

    公开(公告)号:CN117331835A

    公开(公告)日:2024-01-02

    申请号:CN202311322798.7

    申请日:2023-10-12

    Applicant: 复旦大学

    Abstract: 本发明涉及数据集的处理方法,包括:接收多个第一SQL语句‑自然语言对;对于每个所述第一SQL语句‑自然语言对,将其中的第一SQL语句切分为SQL语句单元,将其中的第一自然语言切分为自然语言单元,并将所述SQL语句单元和所述自然语言单元对齐;将多个所述SQL语句单元和对齐的所述自然语言单元组合为多个第二SQL语句‑自然语言对;将多个所述第二SQL语句‑自然语言对分为训练集和测试集。本发明还涉及SQL‑自然语言翻译模型的测试的方法、数据集的处理和SQL‑自然语言翻译模型的测试装置,以及计算设备集群、计算机程序产品和介质。

    一种面向双层索引结构Bindex的数据写入优化方法

    公开(公告)号:CN117032564A

    公开(公告)日:2023-11-10

    申请号:CN202310853977.7

    申请日:2023-07-13

    Abstract: 本发明属于数据库技术领域,具体为一种面向双层索引结构Bindex的数据写入优化方法。本发明首先提供双层索引结构Bindex第二层的混合结构,其包括位置标号序列按照区域扩展而成的多组数据内存块,以及每组数据内存块对应的块信息数组;同一块内的存储的值保持无序;块信息数组包括数据块的最小值、块内存储值的数量和块内存地址;针对该结构的写入优化方法包含无序写入及批量更新:无序写入是写入新数据时确定数据范围后不进行排序,直接将对应位置序号插入在对应数据块尾部;在此基础上应用批量更新,一次性处理大批量新增数据。本发明避免了原索引数据块写入新数据过程中的排序开销,提高了索引结构的写入性能,同时还保证了索引的有效性。

    数据分析中的数据过滤规则建模方法

    公开(公告)号:CN110175191B

    公开(公告)日:2023-06-27

    申请号:CN201910401717.X

    申请日:2019-05-14

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分:(1)数据列分析过滤(2)数据范围分析过滤(3)结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。

Patent Agency Ranking