-
公开(公告)号:CN117194355B
公开(公告)日:2024-02-13
申请号:CN202311479500.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , G06F16/14 , G06F3/06
Abstract: 本申请实施例提供了一种基于数据库的数据处理方法、装置和电子设备,属于数据处理技术领域。该方法包括:根据新增数据表的数据类型筛选出选中数据表,从选中数据表中提取预设批量大小。根据预设批量大小和预设值构建预设批量范围,预设批量范围包括多个第一批量大小,根据第一批量大小对新增数据表进行压缩,得到多个候选数据表。获取每一候选数据表的第一扫描时间,将最小的第一扫描时间对应的第一批量大小作为目标批量大小;按目标批量大小对新增数据表进行压缩,得到目标数据表。按目标批量大小对新增数据表进行压缩时,得到的目标数据表扫描时间最小,因此实现了解压速度和压缩率之间的平衡。
-
公开(公告)号:CN117194440A
公开(公告)日:2023-12-08
申请号:CN202311479042.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22
Abstract: 本申请公开了数据库索引压缩方法、装置、电子设备及存储介质,涉及索引技术领域。通过获取包括多个叶子节点的索引树,对叶子节点列表中叶子节点提取公共前缀。在叶子节点列表中确定初始滑窗的第一边界和第二边界,并计算第一收益,根据第二边界移动至下一个索引值得到的预设边界计算第二收益。若第二收益大于或等于第一收益,则满足预设条件,对第二边界进行更新得到第二滑窗。将第二滑窗作为初始滑窗,迭代执行上述过程,直至不满足预设条件,从而获取初始滑窗的公共前缀。利用公共前缀对初始滑窗中叶子节点的索引值进行压缩。由此通过设置滑窗并根据收益更新滑窗,利用不同的公共前缀压缩不同滑窗中的索引值,有效提高了数据库索引压缩率。
-
公开(公告)号:CN117194355A
公开(公告)日:2023-12-08
申请号:CN202311479500.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , G06F16/14 , G06F3/06
Abstract: 本申请实施例提供了一种基于数据库的数据处理方法、装置和电子设备,属于数据处理技术领域。该方法包括:根据新增数据表的数据类型筛选出选中数据表,从选中数据表中提取预设批量大小。根据预设批量大小和预设值构建预设批量范围,预设批量范围包括多个第一批量大小,根据第一批量大小对新增数据表进行压缩,得到多个候选数据表。获取每一候选数据表的第一扫描时间,将最小的第一扫描时间对应的第一批量大小作为目标批量大小;按目标批量大小对新增数据表进行压缩,得到目标数据表。按目标批量大小对新增数据表进行压缩时,得到的目标数据表扫描时间最小,因此实现了解压速度和压缩率之间的平衡。
-
公开(公告)号:CN117194440B
公开(公告)日:2024-02-13
申请号:CN202311479042.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22
Abstract: 本申请公开了数据库索引压缩方法、装置、电子设备及存储介质,涉及索引技术领域。通过获取包括多个叶子节点的索引树,对叶子节点列表中叶子节点提取公共前缀。在叶子节点列表中确定初始滑窗的第一边界和第二边界,并计算第一收益,根据第二边界移动至下一个索引值得到的预设边界计算第二收益。若第二收益大于或等于第一收益,则满足预设条件,对第二边界进行更新得到第二滑窗。将第二滑窗作为初始滑窗,迭代执行上述过程,直至不满足预设条件,从而获取初始滑窗的公共前缀。利用公共前缀对初始滑窗中叶子节点的索引值进行压缩。由此通过设置滑窗并根据收益更新滑窗,利用不同的公共前缀压缩不同滑窗中的索引值,有效提高了数据库索引压缩率。
-
公开(公告)号:CN115774699B
公开(公告)日:2023-05-23
申请号:CN202310045920.4
申请日:2023-01-30
Applicant: 本原数据(北京)信息技术有限公司
IPC: G06F16/174 , G06F16/176 , G06F18/214
Abstract: 本申请实施例公开了一种数据库共享字典压缩方法、装置、电子设备及存储介质,涉及数据压缩技术领域,通过对数据页执行写入操作,将写入数据写入到数据行中,当写入数据达到预设阈值后利用其训练字典,然后在数据页中存储第一元数据,记录数据页和字典的映射关系,再将训练完成的字典存储到单独的字典文件中,最后根据映射关系从字典文件选取对应的字典对数据页的数据行的写入数据进行压缩,压缩过程中对第一元数据保持未压缩状态,从而有效减小了解压次数,采用少量写入数据训练字典,提升字典训练效率,并且以独立的文件存储字典,缓存到内存中便于查询及管理,有效提升了数据库性能。
-
公开(公告)号:CN115905168B
公开(公告)日:2023-11-07
申请号:CN202211424119.2
申请日:2022-11-15
Applicant: 本原数据(北京)信息技术有限公司
Abstract: 本申请提供了一种基于数据库的自适应压缩方法和装置、设备、存储介质,属于计算机技术领域。该方法包括:获取待识别页面的访问频率信息;根据待识别页面在预设的元数据文件中进行文件划分处理,得到待识别页面的状态数据文件,状态数据文件用于存储待识别页面的初始访问状态和页面压缩状态;根据冷温热状态阈值对访问频率信息进行状态划分确定目标访问状态,并根据目标访问状态更新初始访问状态;根据目标访问状态和算法库确定待识别页面的目标压缩算法;对页面压缩状态进行压缩状态判断,得到判断结果;根据判断结果和目标压缩算法对待识别页面进行数据压缩。本申请实施例能够同时平衡数据库的性能和压缩率。
-
公开(公告)号:CN115774699A
公开(公告)日:2023-03-10
申请号:CN202310045920.4
申请日:2023-01-30
Applicant: 本原数据(北京)信息技术有限公司
IPC: G06F16/174 , G06F16/176 , G06F18/214
Abstract: 本申请实施例公开了一种数据库共享字典压缩方法、装置、电子设备及存储介质,涉及数据压缩技术领域,通过对数据页执行写入操作,将写入数据写入到数据行中,当写入数据达到预设阈值后利用其训练字典,然后在数据页中存储第一元数据,记录数据页和字典的映射关系,再将训练完成的字典存储到单独的字典文件中,最后根据映射关系从字典文件选取对应的字典对数据页的数据行的写入数据进行压缩,压缩过程中对第一元数据保持未压缩状态,从而有效减小了解压次数,采用少量写入数据训练字典,提升字典训练效率,并且以独立的文件存储字典,缓存到内存中便于查询及管理,有效提升了数据库性能。
-
公开(公告)号:CN115208414B
公开(公告)日:2023-01-03
申请号:CN202211119160.9
申请日:2022-09-15
Applicant: 本原数据(北京)信息技术有限公司
IPC: H03M7/30 , G06F16/903
Abstract: 本申请实施例提供了一种数据压缩方法、数据压缩装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:接收数据压缩信号,数据压缩信号包括待压缩的数据页,数据页包括至少一条待压缩数据和待压缩数据的压缩标识;根据预训练的压缩模型对待压缩数据进行数据压缩,得到数据压缩集,数据压缩集包括多个字符类型子集,字符类型子集用于存储待压缩数据经过数据压缩后得到的字符信息;根据压缩标识和字符类型子集构建目标熵编码器;根据目标熵编码器对数据压缩集进行编码,得到压缩结果。本申请实施例能够提高对数据压缩的压缩率。
-
公开(公告)号:CN115905168A
公开(公告)日:2023-04-04
申请号:CN202211424119.2
申请日:2022-11-15
Applicant: 本原数据(北京)信息技术有限公司
Abstract: 本申请提供了一种自适应压缩方法和压缩装置、计算机设备、存储介质,属于计算机技术领域。该方法包括:获取待识别页面的访问频率信息;根据待识别页面在预设的元数据文件中进行文件划分处理,得到待识别页面的状态数据文件,状态数据文件用于存储待识别页面的初始访问状态和页面压缩状态;根据冷温热状态阈值对访问频率信息进行状态划分确定目标访问状态,并根据目标访问状态更新初始访问状态;根据目标访问状态和算法库确定待识别页面的目标压缩算法;对页面压缩状态进行压缩状态判断,得到判断结果;根据判断结果和目标压缩算法对待识别页面进行数据压缩。本申请实施例能够同时平衡数据库的性能和压缩率。
-
公开(公告)号:CN115208414A
公开(公告)日:2022-10-18
申请号:CN202211119160.9
申请日:2022-09-15
Applicant: 本原数据(北京)信息技术有限公司
IPC: H03M7/30 , G06F16/903
Abstract: 本申请实施例提供了一种数据压缩方法、数据压缩装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:接收数据压缩信号,数据压缩信号包括待压缩的数据页,数据页包括至少一条待压缩数据和待压缩数据的压缩标识;根据预训练的压缩模型对待压缩数据进行数据压缩,得到数据压缩集,数据压缩集包括多个字符类型子集,字符类型子集用于存储待压缩数据经过数据压缩后得到的字符信息;根据压缩标识和字符类型子集构建目标熵编码器;根据目标熵编码器对数据压缩集进行编码,得到压缩结果。本申请实施例能够提高对数据压缩的压缩率。
-
-
-
-
-
-
-
-
-