一种基于数据湖的数据管理系统及方法

    公开(公告)号:CN112307122B

    公开(公告)日:2023-06-02

    申请号:CN202011193306.5

    申请日:2020-10-30

    Abstract: 本发明实施例提供了一种基于数据湖的数据管理系统及方法,涉及大数据技术领域。该系统包括:多个计算引擎、多个数据源以及虚拟引擎装置;每个计算引擎,用于向虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息,并接收虚拟引擎装置反馈的与数据访问请求对应的响应结果;虚拟引擎装置,用于向具有标识信息的数据源发送数据访问请求;以及,将具有标识信息的数据源反馈的响应结果,反馈至发出数据访问请求的计算引擎;每个数据源,用于确定数据访问请求对应的响应结果,并将所确定的响应结果反馈给虚拟引擎装置。与现有技术相比,应用本发明实施例提供的方案,可以实现减少基于数据湖的数据管理系统构建过程中的重复开发工作。

    一种文件合并方法、装置、电子设备及存储介质

    公开(公告)号:CN113568877B

    公开(公告)日:2024-08-02

    申请号:CN202010349900.2

    申请日:2020-04-28

    Inventor: 霍元浩 李锐

    Abstract: 本申请实施例提供了一种文件合并方法、装置、电子设备及存储介质,涉及大数据处理技术领域。所述方法应用于分布式存储系统,所述方法包括:查找文件大小不超过预设的单元存储阈值的文件,作为待合并文件,其中,所述单元存储阈值为:所述分布式存储系统中最小存储单元的存储空间的整数倍;对各个待合并文件进行分组,得到多个文件组,其中,每一文件组中待合并文件的文件大小之和不超过所述单元存储阈值;分别对每一待合并文件组内各个待合并文件进行合并,其中,每一待合并文件组为:所得到的文件组中包含的待合并文件数量大于1的文件组。应用本申请实施例提供的方案,可以减小文件对存储空间的消耗。

    一种基于数据湖的数据管理系统及方法

    公开(公告)号:CN112307122A

    公开(公告)日:2021-02-02

    申请号:CN202011193306.5

    申请日:2020-10-30

    Abstract: 本发明实施例提供了一种基于数据湖的数据管理系统及方法,涉及大数据技术领域。该系统包括:多个计算引擎、多个数据源以及虚拟引擎装置;每个计算引擎,用于向虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息,并接收虚拟引擎装置反馈的与数据访问请求对应的响应结果;虚拟引擎装置,用于向具有标识信息的数据源发送数据访问请求;以及,将具有标识信息的数据源反馈的响应结果,反馈至发出数据访问请求的计算引擎;每个数据源,用于确定数据访问请求对应的响应结果,并将所确定的响应结果反馈给虚拟引擎装置。与现有技术相比,应用本发明实施例提供的方案,可以实现减少基于数据湖的数据管理系统构建过程中的重复开发工作。

    一种文件合并方法、装置、电子设备及存储介质

    公开(公告)号:CN113568877A

    公开(公告)日:2021-10-29

    申请号:CN202010349900.2

    申请日:2020-04-28

    Inventor: 霍元浩 李锐

    Abstract: 本申请实施例提供了一种文件合并方法、装置、电子设备及存储介质,涉及大数据处理技术领域。所述方法应用于分布式存储系统,所述方法包括:查找文件大小不超过预设的单元存储阈值的文件,作为待合并文件,其中,所述单元存储阈值为:所述分布式存储系统中最小存储单元的存储空间的整数倍;对各个待合并文件进行分组,得到多个文件组,其中,每一文件组中待合并文件的文件大小之和不超过所述单元存储阈值;分别对每一待合并文件组内各个待合并文件进行合并,其中,每一待合并文件组为:所得到的文件组中包含的待合并文件数量大于1的文件组。应用本申请实施例提供的方案,可以减小文件对存储空间的消耗。

    基于烟花算法的聚类方法和装置

    公开(公告)号:CN112149703A

    公开(公告)日:2020-12-29

    申请号:CN201910576763.3

    申请日:2019-06-28

    Inventor: 霍元浩

    Abstract: 本发明提供一种基于烟花算法的聚类方法和装置,该方法包括:对待聚类的样本点集合进行初始化处理,得到包括预设数量个烟花的首代烟花群体,根据各样本点的高斯变异算子和代价函数以及各烟花的适应度,得到下一代烟花群体,判断下一代烟花群体是否满足预设终止条件,若是,则确定下一代烟花群体中适应度最高的烟花所包括的K个聚类中心为目标聚类中心,根据待聚类的样本点集合中的各样本点与各目标聚类中心的距离,得到聚类结果。本实施例基于适应度和基于高斯变异算子得到的下一代烟花群体,从而能够基于全局进行聚类中心的获取,避免了聚类陷入局部最优的问题,以提升聚类的准确性。

Patent Agency Ranking