-
公开(公告)号:CN115630021B
公开(公告)日:2023-03-28
申请号:CN202211594298.4
申请日:2022-12-13
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: G06F16/13 , G06F16/16 , G06F16/172
摘要: 本申请提出了一种大数据环境下对象存储中小文件合并方法、装置及电子设备,涉及对象存储技术领域,其中,大数据环境下对象存储中小文件合并方法包括:当用户读写文件时获取用户当前访问文件的文件大小;当其小于小文件大小阈值时,将当前访问文件对应的文件编号缓存到小文件组集合中,并使用哈希表保存访问次数;当用户访问文件数量达到合并文件数量阈值时,根据哈希表从小文件组集合中筛选出访问次数大于保留文件所需的最少访问次数阈值的目标文件编号;根据用户对目标文件编号进行分组以得到目标文件编号序列,进而获取目标文件;对目标文件进行对象存储,并将目标文件原文件删除。采用上述方案的本申请实现了海量小文件的高效存储与访问支持。
-
公开(公告)号:CN115630021A
公开(公告)日:2023-01-20
申请号:CN202211594298.4
申请日:2022-12-13
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: G06F16/13 , G06F16/16 , G06F16/172
摘要: 本申请提出了一种大数据环境下对象存储中小文件合并方法、装置及电子设备,涉及对象存储技术领域,其中,大数据环境下对象存储中小文件合并方法包括:当用户读写文件时获取用户当前访问文件的文件大小;当其小于小文件大小阈值时,将当前访问文件对应的文件编号缓存到小文件组集合中,并使用哈希表保存访问次数;当用户访问文件数量达到合并文件数量阈值时,根据哈希表从小文件组集合中筛选出访问次数大于保留文件所需的最少访问次数阈值的目标文件编号;根据用户对目标文件编号进行分组以得到目标文件编号序列,进而获取目标文件;对目标文件进行对象存储,并将目标文件原文件删除。采用上述方案的本申请实现了海量小文件的高效存储与访问支持。
-
公开(公告)号:CN115857837B
公开(公告)日:2023-06-06
申请号:CN202310169831.0
申请日:2023-02-27
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: G06F3/06
摘要: 本发明数据数据处理技术领域,具体涉及一种大数据环境下的数据分布方法、装置、设备及介质,本发明数据分布方法包括:接收存储请求;其中,存储请求中包括待存储对象的id和数据大小leni;当待存储对象的数据大小leni大于预设的设定对象分片阈值threshold时,对待存储对象进行分片;计算待存储对象的分片的最优存储节点,将待存储对象的分片存储于最优存储节点中。本发明提供的一种大数据环境下的数据分布方法,对较大的存储对象进行分片,采用分片的机制防止一个过大的对象被放入单个存储节点,保证整个对象存储系统地负载均衡,从而提高设备的性能和使用寿命。
-
公开(公告)号:CN115665159B
公开(公告)日:2023-04-28
申请号:CN202211602445.8
申请日:2022-12-14
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: H04L67/1008 , H04L67/1061 , H04L67/1095 , H04L67/1097 , H04L67/145
摘要: 本发明涉及元数据数据存储管理技术领域,具体涉及一种大数据环境下的元数据管理方法及系统,该方法包括基于获取的主节点集群、从节点集群和各主节点的存储容量获得主节点与从节点映射集合和主节点与哈希槽的映射集合;利用心跳机制对所有主节点进行超时判断;获取客户端发送的请求指令,基于请求指令的文件名获得目标哈希槽,结合主节点与哈希槽的映射集合确定目标主节点;若请求指令为读请求则从目标主节点或与目标主节点连接的从节点取出元数据;若请求指令为写请求则向目标主节点写入元数据,利用目标主节点向与目标主节点连接的所有从节点发送日志项进行数据同步。根据本发明方法解决了元数据服务器读写请求的负载均衡和数据的一致性问题。
-
公开(公告)号:CN115686799B
公开(公告)日:2023-04-07
申请号:CN202211712518.9
申请日:2022-12-29
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
摘要: 本发明属于大数据技术领域,具体涉及一种大数据平台中的任务调度方法、装置、设备及介质。本发明的任务调度方法先计算了工作节点的资源使用率均值集合及节点性能权值,然后根据资源使用率均值集合和节点性能权值计算工作节点的性能分数,筛选出评分最高的节点,并将任务调度至该节点上。综合考虑节点的CPU使用率、内存使用率、网卡发送带宽利用率和网卡接收带宽利用率,并考虑这些资源使用率的碎片率和任务的数据亲和性,保证整个大数据平台任务调度的高效运行。避免了作业在节点之间的分配和调度不合理,造成整个大数据平台的性能下降的问题。
-
公开(公告)号:CN116010677B
公开(公告)日:2023-06-23
申请号:CN202310296446.2
申请日:2023-03-24
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: G06F16/951 , G06F16/9537 , G06F16/29 , G06F16/23
摘要: 本申请提出了一种空间索引方法、装置及其电子设备,涉及地理信息检索等信息技术领域。该方法包括:获取数据请求消息,并根据数据请求消息的标识获取数据请求类型;响应于请求类型为数据查询请求,以数据请求消息中的地理位置为空间索引,根据各数据节点的层级关系进行逐层搜索,获取地理位置所在兴趣点的目标业务数据;响应于请求类型为数据更新请求,将数据更新请求透传至最后一层数据节点,并根据数据更新请求对数据节点中的目标业务数据进行更新。本申请可以支持海量兴趣点数据空间索引的快速建立,实时更新以及更高级别的QPS查询,通过分布式架构、冗余存储的方式,显著提升空间索引的性能和吞吐,支持海量实体的高实时更新和高性能检索。
-
公开(公告)号:CN115665159A
公开(公告)日:2023-01-31
申请号:CN202211602445.8
申请日:2022-12-14
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: H04L67/1008 , H04L67/1061 , H04L67/1095 , H04L67/1097 , H04L67/145
摘要: 本发明涉及元数据数据存储管理技术领域,具体涉及一种大数据环境下的元数据管理方法及系统,该方法包括基于获取的主节点集群、从节点集群和各主节点的存储容量获得主节点与从节点映射集合和主节点与哈希槽的映射集合;利用心跳机制对所有主节点进行超时判断;获取客户端发送的请求指令,基于请求指令的文件名获得目标哈希槽,结合主节点与哈希槽的映射集合确定目标主节点;若请求指令为读请求则从目标主节点或与目标主节点连接的从节点取出元数据;若请求指令为写请求则向目标主节点写入元数据,利用目标主节点向与目标主节点连接的所有从节点发送日志项进行数据同步。根据本发明方法解决了元数据服务器读写请求的负载均衡和数据的一致性问题。
-
公开(公告)号:CN116010677A
公开(公告)日:2023-04-25
申请号:CN202310296446.2
申请日:2023-03-24
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: G06F16/951 , G06F16/9537 , G06F16/29 , G06F16/23
摘要: 本申请提出了一种空间索引方法、装置及其电子设备,涉及地理信息检索等信息技术领域。该方法包括:获取数据请求消息,并根据数据请求消息的标识获取数据请求类型;响应于请求类型为数据查询请求,以数据请求消息中的地理位置为空间索引,根据各数据节点的层级关系进行逐层搜索,获取地理位置所在兴趣点的目标业务数据;响应于请求类型为数据更新请求,将数据更新请求透传至最后一层数据节点,并根据数据更新请求对数据节点中的目标业务数据进行更新。本申请可以支持海量兴趣点数据空间索引的快速建立,实时更新以及更高级别的QPS查询,通过分布式架构、冗余存储的方式,显著提升空间索引的性能和吞吐,支持海量实体的高实时更新和高性能检索。
-
公开(公告)号:CN115857837A
公开(公告)日:2023-03-28
申请号:CN202310169831.0
申请日:2023-02-27
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
IPC分类号: G06F3/06
摘要: 本发明数据数据处理技术领域,具体涉及一种大数据环境下的数据分布方法、装置、设备及介质,本发明数据分布方法包括:接收存储请求;其中,存储请求中包括待存储对象的id和数据大小leni;当待存储对象的数据大小leni大于预设的设定对象分片阈值threshold时,对待存储对象进行分片;计算待存储对象的分片的最优存储节点,将待存储对象的分片存储于最优存储节点中。本发明提供的一种大数据环境下的数据分布方法,对较大的存储对象进行分片,采用分片的机制防止一个过大的对象被放入单个存储节点,保证整个对象存储系统地负载均衡,从而提高设备的性能和使用寿命。
-
公开(公告)号:CN115686799A
公开(公告)日:2023-02-03
申请号:CN202211712518.9
申请日:2022-12-29
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能置业有限公司
摘要: 本发明属于大数据技术领域,具体涉及一种大数据平台中的任务调度方法、装置、设备及介质。本发明的任务调度方法先计算了工作节点的资源使用率均值集合及节点性能权值,然后根据资源使用率均值集合和节点性能权值计算工作节点的性能分数,筛选出评分最高的节点,并将任务调度至该节点上。综合考虑节点的CPU使用率、内存使用率、网卡发送带宽利用率和网卡接收带宽利用率,并考虑这些资源使用率的碎片率和任务的数据亲和性,保证整个大数据平台任务调度的高效运行。避免了作业在节点之间的分配和调度不合理,造成整个大数据平台的性能下降的问题。
-
-
-
-
-
-
-
-
-