-
公开(公告)号:CN117032564A
公开(公告)日:2023-11-10
申请号:CN202310853977.7
申请日:2023-07-13
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
Abstract: 本发明属于数据库技术领域,具体为一种面向双层索引结构Bindex的数据写入优化方法。本发明首先提供双层索引结构Bindex第二层的混合结构,其包括位置标号序列按照区域扩展而成的多组数据内存块,以及每组数据内存块对应的块信息数组;同一块内的存储的值保持无序;块信息数组包括数据块的最小值、块内存储值的数量和块内存地址;针对该结构的写入优化方法包含无序写入及批量更新:无序写入是写入新数据时确定数据范围后不进行排序,直接将对应位置序号插入在对应数据块尾部;在此基础上应用批量更新,一次性处理大批量新增数据。本发明避免了原索引数据块写入新数据过程中的排序开销,提高了索引结构的写入性能,同时还保证了索引的有效性。
-
公开(公告)号:CN119759948A
公开(公告)日:2025-04-04
申请号:CN202411710035.4
申请日:2024-11-27
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F16/28
Abstract: 本发明公开了一种基于动态搜索范围的向量‑关系型数据混合查询优化方法;该方法该算法通过两阶段的优化策略提高查询效率;首先,在优化条件检查阶段,查询引擎分析查询的语义,评估物理操作符的可优化性,确保符合K最近邻(KNN)查询的语义。其次,在物理操作符优化阶段,算法利用记录表跟踪查询状态,执行近似最近邻搜索,并根据相似度进行查询决策,从而减少冗余计算。该算法在确保查询准确性与多样性的同时,有效减少了计算开销,并在所有类别的KNN查询完成后及时终止搜索。此发明旨在提升混合查询的处理效率,优化推荐系统中的用户体验,提供了一种高效的查询优化解决方案。
-
公开(公告)号:CN117194423A
公开(公告)日:2023-12-08
申请号:CN202311138400.4
申请日:2023-09-05
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/22 , G06F16/23 , G06F16/242
Abstract: 本发明公开了一种面向持久化存储的索引结构,属于数据库领域,包括删除标记位向量及通过逻辑块索引连接的第一层和第二层;逻辑块索引为对逻辑块构建的索引,逻辑块为对含有N个数据的原始数组按预定顺序排列后得到的临时数组进行划分后得到的k个数据块;第一层包括k+1个位向量,每个位向量均包括N个用于表示原始数组中的某个数据是否存在于某个逻辑块中的比特;第二层包括具有N个位置序号的位置标号序列,位置序号表示临时数组中相对应的数据在原始数组中的位置序号;删除标记位向量包括N个用于表示原始数组中相对应的数据是否已被移除的比特。本发明既避免了对原文件的索引结构进行更新,同时还可以保证索引的有效性。
-
公开(公告)号:CN119719828A
公开(公告)日:2025-03-28
申请号:CN202411709931.9
申请日:2024-11-27
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F18/23213 , G06F18/2325
Abstract: 本发明公开了一种面向持久化存储的高维向量近似最近邻检索方法;其包括索引构建阶段和搜索阶段;索引构建阶段,采用聚类算法对数据集进行空间划分,引入中心替换策略选取代表性向量用于建立入口点图,同时在原始数据集上构建第二层近邻图;搜索阶段,利用入口点图结果快速定位查询向量至最接近的入口点,缩短了搜索路径。本发明采用最佳乘积量化编码策略,降低了SSD数据加载开销;采用多束搜索策略有效利用文件系统按页读取特性,减少了时间开销,增大了数据加载量;采用迭代搜索策略收集查询向量搜索特征,自适应搜索过程,提高了搜索效率。本发明针对大规模数据的混合架构挑战,提供了一种优化近似最近邻搜索、高效的搜索解决方案。
-
-
-