-
公开(公告)号:CN119759948A
公开(公告)日:2025-04-04
申请号:CN202411710035.4
申请日:2024-11-27
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F16/28
Abstract: 本发明公开了一种基于动态搜索范围的向量‑关系型数据混合查询优化方法;该方法该算法通过两阶段的优化策略提高查询效率;首先,在优化条件检查阶段,查询引擎分析查询的语义,评估物理操作符的可优化性,确保符合K最近邻(KNN)查询的语义。其次,在物理操作符优化阶段,算法利用记录表跟踪查询状态,执行近似最近邻搜索,并根据相似度进行查询决策,从而减少冗余计算。该算法在确保查询准确性与多样性的同时,有效减少了计算开销,并在所有类别的KNN查询完成后及时终止搜索。此发明旨在提升混合查询的处理效率,优化推荐系统中的用户体验,提供了一种高效的查询优化解决方案。
-
公开(公告)号:CN114328606A
公开(公告)日:2022-04-12
申请号:CN202111659306.4
申请日:2021-12-30
Applicant: 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455
Abstract: 本申请实施例公开了一种SQL执行效率的提高方法、设备及存储介质。其中,方法包括:获取目标SQL的运算参与表的基本信息和运算参与操作的类型;基于基本信息和类型,从运算参与操作中识别可优化操作;判断各可优化操作是否符合预设条件,并在可优化操作符合预设条件的情况下,确定各可优化操作的初始执行代价以及添加聚合操作后各可优化操作的目标执行代价;若初始执行代价和目标执行代价满足预设优化条件,将添加聚合操作后的可优化操作确定为可优化操作的替换操作;利用替换操作对目标SQL中对应的可优化操作进行替换,以提高目标SQL的执行效率。借助聚合操作,可以减少重复元素,避免对重复元素的重复计算,从而提高目标SQL的执行效率和计算性能。
-
公开(公告)号:CN112732715A
公开(公告)日:2021-04-30
申请号:CN202011621853.9
申请日:2020-12-31
Applicant: 星环信息科技(上海)股份有限公司
Abstract: 本发明实施例公开了一种数据表关联方法、设备以及存储介质。该方法包括:获取数据表对的关联指令,确定关联进程中的各个任务节点的任务信息;数据表对包括查找表和扫描表,任务信息包括扫描表中分配给对应的任务节点的扫描子表;对于关联进程中的每个任务节点,根据负载信息与预测策略的匹配结果,确定任务节点的关联算法模型,根据关联算法模型关联查找表和扫描子表,得到关联子结果;预设策略包括负载信息与关联算法模型的关联关系,负载信息包括扫描子表的数据量和/或关联进程的占用资源;根据各个任务节点的关联子结果确定关联指令的关联结果。本发明实施例根据任务节点和关联进程的负载自适应地选择关联算法,提高了整体的执行性能。
-
公开(公告)号:CN119719828A
公开(公告)日:2025-03-28
申请号:CN202411709931.9
申请日:2024-11-27
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F18/23213 , G06F18/2325
Abstract: 本发明公开了一种面向持久化存储的高维向量近似最近邻检索方法;其包括索引构建阶段和搜索阶段;索引构建阶段,采用聚类算法对数据集进行空间划分,引入中心替换策略选取代表性向量用于建立入口点图,同时在原始数据集上构建第二层近邻图;搜索阶段,利用入口点图结果快速定位查询向量至最接近的入口点,缩短了搜索路径。本发明采用最佳乘积量化编码策略,降低了SSD数据加载开销;采用多束搜索策略有效利用文件系统按页读取特性,减少了时间开销,增大了数据加载量;采用迭代搜索策略收集查询向量搜索特征,自适应搜索过程,提高了搜索效率。本发明针对大规模数据的混合架构挑战,提供了一种优化近似最近邻搜索、高效的搜索解决方案。
-
公开(公告)号:CN116662454A
公开(公告)日:2023-08-29
申请号:CN202310401084.9
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/2453 , G06F18/23213 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。
-
公开(公告)号:CN110688393B
公开(公告)日:2021-01-29
申请号:CN201910935388.7
申请日:2019-09-29
Applicant: 星环信息科技(上海)股份有限公司
IPC: G06F16/242 , G06F16/2453
Abstract: 本发明实施例公开了一种查询语句优化方法、装置、计算机设备及存储介质。所述方法包括在检测到查询优化请求时,获取所述查询优化请求指向的待处理查询,所述待处理查询中包括多个子查询;采用预设的查询优化规则,逐级对所述待处理查询中包括的满足查询优化条件的子查询组进行优化处理,得到与所述待处理查询对应的备选优化查询,所述子查询组中包括至少两个子查询;分别对所述待处理查询和所述备选优化查询进行代价评估;如果确定所述备选优化查询的代价评估结果优于所述待处理查询的代价评估结果,则将所述备选优化查询作为所述待处理查询的优化结果。本发明实施例可以优化查询,提高查询效率,降低查询成本,极大的提升查询性能。
-
公开(公告)号:CN117033402A
公开(公告)日:2023-11-10
申请号:CN202311083779.3
申请日:2023-08-25
Applicant: 星环信息科技(上海)股份有限公司
IPC: G06F16/23 , G06F16/2453 , G06F16/2455
Abstract: 本发明公开了一种数据访问方法、装置、设备及存储介质。该方法包括:获取数据访问请求,数据访问请求包括大小写敏感属性信息;在大小写敏感属性信息为大小写不敏感的情况下,根据数据访问请求访问数据表中的伴生列和非伴生列,伴生列用于存储目标数据列对应的大小写统一数据;非伴生列用于存储原始数据,通过在引擎中进行大小写不敏感语义的解析与处理,实现多模数据库的大小写不敏感语义的功能。
-
公开(公告)号:CN113204602A
公开(公告)日:2021-08-03
申请号:CN202110496553.0
申请日:2021-05-07
Applicant: 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/22 , G06F16/242
Abstract: 本发明公开了一种数据处理方法、装置、设备及存储介质,该方法包括:响应于窗口函数调用指令,获取窗口函数调用指令包含的目标字段;根据目标字段的哈希值确定逻辑表单;对逻辑表单进行窗口函数处理。本发明根据窗口函数调用指令携带的分组字段,计算分组字段的内容的哈希值,进而将不同内容的分组字段分配到不同的逻辑表单中,使得逻辑表单保存有具有相同哈希值的分组字段的内容。一个逻辑表单能够包含多个具有相同哈希值的分组字段的内容,因此无需为每个分组字段的内容分别建立物理窗口,进而更加合理的划分窗口,提高窗口函数处理效率。
-
公开(公告)号:CN112732715B
公开(公告)日:2023-08-25
申请号:CN202011621853.9
申请日:2020-12-31
Applicant: 星环信息科技(上海)股份有限公司
Abstract: 本发明实施例公开了一种数据表关联方法、设备以及存储介质。该方法包括:获取数据表对的关联指令,确定关联进程中的各个任务节点的任务信息;数据表对包括查找表和扫描表,任务信息包括扫描表中分配给对应的任务节点的扫描子表;对于关联进程中的每个任务节点,根据负载信息与预测策略的匹配结果,确定任务节点的关联算法模型,根据关联算法模型关联查找表和扫描子表,得到关联子结果;预设策略包括负载信息与关联算法模型的关联关系,负载信息包括扫描子表的数据量和/或关联进程的占用资源;根据各个任务节点的关联子结果确定关联指令的关联结果。本发明实施例根据任务节点和关联进程的负载自适应地选择关联算法,提高了整体的执行性能。
-
公开(公告)号:CN116521719A
公开(公告)日:2023-08-01
申请号:CN202310401083.4
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06N3/084 , G06N3/04 , G06F16/22
Abstract: 本发明属于数据库查询技术领域,具体为一种基于代价估计的查询优化系统。本发明包括系统信息提取器、基于深度学习的代价估计模型;系统信息器将数据库管理系统的存储、执行模型等信息处理成为结构化数据以供模型使用;基于深度学习的代价估计模型能够根据不同的系统信息,通过历史执行记录建立从查询到代价的映射关系,从而对未知查询的代价进行估计;代价估计模型的训练采用分层训练策略,可以帮助模型从成批的训练数据中进行学习,提高模型训练的内存利用率,减小训练震荡,加速模型收敛。本发明可以帮助数据库优化器选择正确执行计划,最终提高数据库整体的查询执行效率。
-
-
-
-
-
-
-
-
-