一种面向云数据分析场景的水平数据分区方法和系统

    公开(公告)号:CN118585585A

    公开(公告)日:2024-09-03

    申请号:CN202410726943.6

    申请日:2024-06-06

    Abstract: 本发明公开了一种面向云数据分析场景的水平数据分区方法,其自适应识别历史查询负载在各属性的热点查询区间、具有局部性的查询模式和离群查询区间,由此对历史查询负载灵活泛化,兼顾未来查询负载与历史查询负载的相似性和差异性;设计了基于概率的成本模型,准确地评估泛化查询负载的开销,并考虑了数据属性间的相关性,以更精确地量化分区动作的收益,从而优化分区决策;设计了基于概率成本模型的两阶段水平分区方法,首先使用轴垂直超平面切割,使得分区方案尽可能细粒度地对齐泛化查询负载,保证数据跳过效率;针对轴垂直超平面切割面对倾斜数据失效的问题,设计了排序二分切割作为补充,增强分区方法鲁棒性的同时,进一步提升数据跳过效率。

    数据处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN119088293A

    公开(公告)日:2024-12-06

    申请号:CN202411080241.1

    申请日:2024-08-07

    Abstract: 本公开提供了一种数据处理方法、装置、计算机设备及存储介质。方法通过获取目标数据对象的数据元信息和在第一时间段内的第一访问请求信息;将数据元信息和第一访问请求信息输入第一神经网络模型进行数据热度预测,得到目标数据对象在第二时间段内的数据热度信息;将数据元信息以及第一访问请求信息输入第二神经网络模型进行数据有效时长预测,得到目标数据对象对应的数据有效时长;基于数据元信息、数据热度信息以及数据有效时长生成目标数据对象在目标数据存储集群中的数据迁移计划;根据数据迁移计划对目标数据对象在目标数据存储集群中进行数据迁移。该方法可以提升数据迁移的准确性。

    一种缓存系统、缓存处理方法、装置、设备及介质

    公开(公告)号:CN111737168B

    公开(公告)日:2024-09-20

    申请号:CN202010585684.1

    申请日:2020-06-24

    Abstract: 本申请实施例公开了一种缓存系统、缓存处理方法、装置、设备及介质,其中方法包括:依照当前时刻检测到的I/O请求,确定当前时刻各存储节点的缓存命中率曲线,在满足缓存处理条件时,基于最新时刻各存储节点的缓存命中率曲线确定目标缓存配置方案,并依照目标缓存配置方案指示的各存储节点的待配缓存空间大小,调整各存储节点对应缓存实例的缓存空间大小。本申请实施例,可依照I/O请求实时分析出各存储节点的缓存命中率曲线,并基于各存储节点的缓存命中率曲线搜索出最佳缓存配置方案,动态调整各缓存实例的缓存空间,有利于实现缓存空间的按需分配,有效提高缓存利用率。

    一种语义驱动的时间序列预测模型及其训练方法

    公开(公告)号:CN118586400A

    公开(公告)日:2024-09-03

    申请号:CN202410726329.X

    申请日:2024-06-06

    Abstract: 本发明公开了一种语义驱动的时间序列预测模型,包括语义信息编码层、嵌入层编码模块、第一变量选择网络、k个第二变量选择网络、τ个第三变量选择网络、静态协编码器模块、LSTM编码模块、LSTM解码模块、k+τ个门控残差网络、多头注意力层、以及输出层(其为全连接层),语义信息编码层的输入是使用词袋技术和TF‑IDF技术对文本特征进行处理后得到的维度为bs×1×c的文本特征矩阵,其对该文本特征矩阵进行维度变换处理,输出维度为bs×1×h的语义特征矩阵。其中bs为离线训练过程中预先设置的批量数据大小。本发明能够解决现有时间序列预测模型由于缺乏语义信息处理能力和缺乏输入多样性考虑导致的准确性低和泛化性不佳的技术问题,以及缺乏特征可解释性能力的问题。

    一种异构粒度存储系统中的缺失率曲线构建方法和系统

    公开(公告)号:CN115130032B

    公开(公告)日:2024-07-09

    申请号:CN202210789994.4

    申请日:2022-07-05

    Abstract: 本发明公开了一种异构粒度存储系统中的缺失率曲线构建方法,包括:接收访问请求序列,并设置计数器i=1,判断i是否等于访问请求序列中的访问请求总数,如果不等于则将访问请求序列中的第i条访问请求载入缓存过滤器中,并判断该第i条访问请求对应的访问对象是否在缓存过滤器中命中,如果没有则根据第i条访问请求对应的访问对象的大小获取该访问对象的采样率,根据得到的第i条访问请求对应的访问对象的采样率对该访问对象进行采样,并计算该访问对象的重用距离,设置计数器i=i+1。本发明能够解决现有异构粒度存储系统中由于内容流行度差异以及对象大小差异,从而导致的字节缺失率曲线与对象缺失率曲线构建不准确的技术问题。

    一种基于机器学习降低内容分发网络租户尾延时的方法和系统

    公开(公告)号:CN116962204A

    公开(公告)日:2023-10-27

    申请号:CN202310916502.8

    申请日:2023-07-24

    Abstract: 本发明公开了一种基于机器学习降低内容分发网络租户尾延时的方法,包括以下步骤:接收来自请求端的多个租户负载请求所组成的租户负载请求序列{R1,R2,…,Rk},先后对所有租户负载请求进行向量化处理和归一化处理,以获取所有租户负载请求对应的多个特征向量,将所有租户负载请求对应的多个特征向量输入到预先训练好的机器学习模型中,以获取所有租户负载请求对应的多个预测结果,根据所有租户负载请求对应的多个预测结果获取每个租户负载请求对应的租户缓存分区的尾延时敏感度。本发明能够解决CDN云厂商现有缓存空间静态分配方法在租户访问模式发生改变后造成租户缓存分区缓存资源低配或超配的技术问题。

    数据写入方法、装置及存储服务器和计算机可读存储介质

    公开(公告)号:CN111104066B

    公开(公告)日:2021-07-27

    申请号:CN201911304631.1

    申请日:2019-12-17

    Abstract: 本申请公开了一种数据写入方法、装置及一种存储服务器和计算机可读存储介质,该方法包括:当接收到写入请求时,将所述写入请求对应的写入数据写入写缓冲区中;当触发所述写缓冲区的数据下刷操作时,获取所述待下刷数据对应的数据块的历史访问数据;基于所述历史访问数据判断待下刷数据是否为只写数据;若是,则将所述待下刷数据写入硬盘驱动器中;若否,则将所述待下刷数据写入缓存中。本申请提供的数据写入方法,可以有效减少写入缓存的无用流量,同时在缓存中为普通数据留出更多空间,提高缓存空间利用率,从而提高缓存的读取命中率,提升存储系统的读性能,实现了对缓存的最低写入流量,提高了写策略的效率。

    一种基于深度学习的块级缓存预取优化方法和系统

    公开(公告)号:CN110245094B

    公开(公告)日:2020-12-29

    申请号:CN201910526384.3

    申请日:2019-06-18

    Abstract: 本发明公开了一种基于深度学习的块级缓存预取优化方法,包括:从测试数据集获取以字节为单位的IO数据,将该IO数据转化为以块为单位的IO数据,判断转化后的IO数据是否在缓存中命中,如果没有则对转化后的IO数据进行顺序预测,以得到多个存储块,将转化后的IO数据存储在内存的IO队列中,并判断该IO队列是否已满,如果是则将内存的IO队列中的所有IO数据输入训练好的Seq2Seq模型中,以得到预测的IO数据,并根据该预测的IO数据获取对应的多个存储块。本发明根据利用深度学习的方法挖掘IO的相关性,并利用基于LSTM的Seq2Seq模型完成IO序列的预测,最后将IO序列预测与顺序预测相结合,从而完成缓存的预取,提升缓存的命中率。

    一种SSD缓存系统及缓存方法

    公开(公告)号:CN109189696B

    公开(公告)日:2020-11-24

    申请号:CN201810911523.X

    申请日:2018-08-12

    Abstract: 本发明公开了一种SSD缓存系统及缓存方法,其中系统包括:SSD缓存、存储装置、日志记录装置以及分类装置;分类装置包括:预测模块和历史表模块;预测模块用于利用目标分类器预测目标照片的类别;历史表模块用于存储最近被判定为一次访问文件的照片的元数据信息;分类装置用于在预测模块预测目标照片为一次访问文件,且目标照片的元数据信息未被存储或者目标照片的元数据信息被存储而当前请求与该元数据信息所对应的最近的请求之间的访问间隔大于访问间隔阈值时,将目标照片标记为一次访问文件;否则,将目标照片标记为非一次访问文件。本发明能够有效减小缓存写入,提高SSD缓存的使用寿命并改善SSD缓存的性能。

    一种基于RDMA网络的分布式文件系统数据传输方法和系统

    公开(公告)号:CN110191194B

    公开(公告)日:2020-07-03

    申请号:CN201910508982.8

    申请日:2019-06-13

    Inventor: 王桦 周可 阴智辉

    Abstract: 本发明公开了一种基于RDMA网络的分布式文件系统数据传输方法,包括:客户端在接收到来自用户的文件访问请求时,向服务端发起RDMA连接请求,服务端在获取到来自客户端的RDMA连接请求后,建立与客户端的RDMA连接,客户端根据文件访问请求生成网络数据访问请求,并利用RDMA连接将该网络数据访问请求发送到服务端,服务端对网络数据访问请求进行解析,以获取其中的地址信息,并根据该地址信息获取其对应的文件在该服务端的内存中的地址作为服务端返回地址,服务端将服务端返回地址、以及RDMA远程访问权限信息发送到客户端。本发明能够解决现有分布式文件系统存在的数据传输过程中内存操作的开销较大的技术问题,以及服务端的负载较大、传输时延较长的技术问题。

Patent Agency Ranking