分布式数据库表连接顺序和连接算子的优化方法及系统

    公开(公告)号:CN118394785A

    公开(公告)日:2024-07-26

    申请号:CN202410469512.6

    申请日:2024-04-18

    Applicant: 武汉大学

    Abstract: 一种分布式数据库表连接顺序和连接算子的优化方法及系统,属于数据库查询优化领域,包括对查询语句进行编码,得到语句特征向量;对待连接数据表的数据分布进行编码得到分布特征向量;根据语句特征向量生成连接森林及其森林特征向量;根据语句特征向量、分布特征向量、以及森林特征向量生成当前连接状态的当前状态特征向量;根据当前状态特征向量构建基于Tree‑LSTM的深度强化学习模型;根据Beam Search算法选择最优的N个最优连接动作执行,生成N个对应的下一时刻连接状态,重复该过程,直至生成执行计划;将执行计划的执行时间作为反馈信号优化深度强化学习模型。本申请能够提升确定数据表连接顺序的效率和准确性。

    一种面向移动端对象代理数据库关联查询的优化方法

    公开(公告)号:CN110059108A

    公开(公告)日:2019-07-26

    申请号:CN201910348952.5

    申请日:2019-04-28

    Applicant: 武汉大学

    Abstract: 发明公开了一种面向移动端对象代理数据库关联查询的优化方法,在方案中提出通过deputy系统表记录类之间关联关系,并指向双向指针聚簇最后一页,精简现存双向指针聚簇冗余代理类号与源类号的存储。对JOIN代理类双向指针聚簇进行重新排布,将一个JOIN代理类所有相关双向指针存入一个聚簇,一个JOIN代理对象对应的双向指针在聚簇中按固定次序连续存储。通过JOIN代理类双向指针聚簇完成针对JOIN代理类的虚属性查询,以此提高移动端对象代理数据库关联查询效率,避免查询一个代理对象需扫描多个聚簇页面。

    基于深度学习的分布式节点基数估计方法、装置及设备

    公开(公告)号:CN118410064A

    公开(公告)日:2024-07-30

    申请号:CN202410448952.3

    申请日:2024-04-15

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于深度学习的分布式节点基数估计方法、装置及设备,涉及数据库查询优化领域,该方法包括获取分布式执行计划,并对表的统计信息、TableSchema信息、物理分布信息进行编码,并生成数据分布的特征向量;对分布式执行计划各个节点进行编码,对物理操作符特征、表特征、列特征、连接条件特征和选择条件特征分别生成特征向量;将生成的特征向量整合,输入至Tree‑LSTM中以预测分布式执行计划在各个分布式物理节点的基数;根据损失函数计算估计的基数和真实的基数间的损失值,以更新神经网络中的参数。本申请能够准确地提取数据分布的关键信息,为分布式节点基数估计提供了全面和精确的数据支持。

    一种面向多数据流的分布式实时压缩方法

    公开(公告)号:CN112636763B

    公开(公告)日:2024-05-17

    申请号:CN202011546377.9

    申请日:2020-12-24

    Applicant: 武汉大学

    Abstract: 本发明涉及数据流压缩技术,具体涉及一种面向多数据流的分布式实时压缩方法,首先利用相关关系对数据流进行粗粒度的在线分片;使用贪心策略构建了粗粒度的时序数据流在线分片算法,一方面考虑了分片内时序数据流的相关关系,保证了压缩误差以及分组的动态性,另一方面保证了分片长度最大即考虑压缩率。接下来对分片内的数据流进行细粒度的聚类;针对分片内数据特征,从无监督学习角度出发,提出面向时间序列的段聚类算法,不仅可以对分片内读数接近的信号量进行细粒度的分组,还可以标记分组内的核心线段和噪声片段,加快了后期代表序列选择的过程。最后在聚簇中选择有代表性的数据流序列进行存储及压缩;提高了压缩效果和效率。

    基于注意力机制的基数估计值方法

    公开(公告)号:CN118377781A

    公开(公告)日:2024-07-23

    申请号:CN202410542062.9

    申请日:2024-04-30

    Applicant: 武汉大学

    Abstract: 一种基于注意力机制的基数估计值确定方法、装置、设备及计算机可读存储介质,包括:采用分布式分桶方法对分布式数据库中各节点处关系表的元组数据进行分桶处理,以获取各个所述关系表中各列属性的全局直方图信息;基于所述各列属性的全局直方图信息对预置神经网络进行训练,以生成单表联合概率分布模型,其中,所述预置神经网络包括编码器和解码器,且所述解码集包括Transformer中多头自注意力机制,且所述单表联合概率分布模型为多个;根据预置因子图、各个所述单表联合概率分布模型和获取的关系表信息,生成多表联合概率分布模型;基于多表联合概率分布模型对待预测查询语句进行预测,确定所述待预测查询语句的基数估计值,提高基数估计结果的准确性。

    面向并行微服务组合的边缘服务部署方法

    公开(公告)号:CN112882723B

    公开(公告)日:2023-09-08

    申请号:CN202110209666.8

    申请日:2021-02-24

    Applicant: 武汉大学

    Abstract: 本发明公开了一种面向并行微服务组合的边缘服务部署方法,包括:构建边缘环境下终端和边缘服务器之间的连接拓扑以及边缘服务器的容量限制;构建边缘环境下终端与边缘服务器之间的微服务请求‑响应系统;形成以最小化终端的服务响应时间作为主目标、最小化终端访问云服务器的次数作为辅助目标的多目标组合;编码微服务部署方案得到主目标和辅助目标对应的适应值;构建种群,基于带精英策略的非支配排序的遗传算法并融合粒子群算法对种群进行迭代优化以求解Pareto最优解,得到主目标最优的个体对应的微服务部署方案。本发明通过引入辅助目标防止了主目标过早收敛而陷入局部最优解;通过引入粒子群算法改进非支配排序的遗传算法,提高了算法的准确性。

    一种面向多数据流的分布式实时压缩方法

    公开(公告)号:CN112636763A

    公开(公告)日:2021-04-09

    申请号:CN202011546377.9

    申请日:2020-12-24

    Applicant: 武汉大学

    Abstract: 本发明涉及数据流压缩技术,具体涉及一种面向多数据流的分布式实时压缩方法,首先利用相关关系对数据流进行粗粒度的在线分片;使用贪心策略构建了粗粒度的时序数据流在线分片算法,一方面考虑了分片内时序数据流的相关关系,保证了压缩误差以及分组的动态性,另一方面保证了分片长度最大即考虑压缩率。接下来对分片内的数据流进行细粒度的聚类;针对分片内数据特征,从无监督学习角度出发,提出面向时间序列的段聚类算法,不仅可以对分片内读数接近的信号量进行细粒度的分组,还可以标记分组内的核心线段和噪声片段,加快了后期代表序列选择的过程。最后在聚簇中选择有代表性的数据流序列进行存储及压缩;提高了压缩效果和效率。

    轨迹基数估计模型训练方法、装置、设备及可读存储介质

    公开(公告)号:CN118467659A

    公开(公告)日:2024-08-09

    申请号:CN202410562059.3

    申请日:2024-05-08

    Applicant: 武汉大学

    Abstract: 一种轨迹基数估计模型训练方法、装置、设备及可读存储介质,轨迹基数估计模型训练方法包括:获取轨迹数据集,并将轨迹数据集中的每条轨迹映射在地图上;对地图的边和顶点进行编号,并建立边和顶点相对轨迹的倒排索引;将地图按照预设长宽进行网格划分,并建立网格索引;基于倒排索引和网格索引,统计每个网格中的轨迹特征数据;以轨迹查询输入、轨迹特征数据及预设网格查询范围组成每条训练数据;使用多条训练数据训练神经网络,以供得到轨迹基数估计模型。通过本申请,输入的训练数据包含了轨迹的特征数据,使得轨迹基数估计模型能够准确的捕捉轨迹的行为特征,能够提升轨迹基数估计模型的预测准确率。

    一种面向移动端对象代理数据库关联查询的优化方法

    公开(公告)号:CN110059108B

    公开(公告)日:2022-11-29

    申请号:CN201910348952.5

    申请日:2019-04-28

    Applicant: 武汉大学

    Abstract: 发明公开了一种面向移动端对象代理数据库关联查询的优化方法,在方案中提出通过deputy系统表记录类之间关联关系,并指向双向指针聚簇最后一页,精简现存双向指针聚簇冗余代理类号与源类号的存储。对JOIN代理类双向指针聚簇进行重新排布,将一个JOIN代理类所有相关双向指针存入一个聚簇,一个JOIN代理对象对应的双向指针在聚簇中按固定次序连续存储。通过JOIN代理类双向指针聚簇完成针对JOIN代理类的虚属性查询,以此提高移动端对象代理数据库关联查询效率,避免查询一个代理对象需扫描多个聚簇页面。

Patent Agency Ranking