一种基于Spark的测井数据缺失值的分布式填补方法

    公开(公告)号:CN115268848B

    公开(公告)日:2025-05-13

    申请号:CN202210855411.3

    申请日:2022-07-19

    Abstract: 本发明涉及一种基于Spark的测井数据缺失值的分布式填补方法,属于缺失数据填补领域领域。本发明提供的基于Spark的测井数据缺失值的分布式填补方法通过以HDFS作为储存系统,对勘查工作中的测井数据实现分布式存储,作为分布式计算的信息源;安装部署Spark集群,并通过Yarn作为资源管理和任务调度框架;通过构建索引、标准化处理等方法对数据仓库中的测井数据进行二次预处理;通过分布式随机森林和分布式GBT模型,对勘查工作中的测井数据的缺失值进行预测;通过分布式网格搜索+k折交叉验证和Train‑Validation‑Split方法优化分布式预测填补模型。本发明能够为测井的数据缺失问题提供一种精度更高,时间成本更低的解决方案,为测井数据得进一步研究分析与利用提供了保障。

    一种基于Spark的测井数据缺失值的分布式填补方法

    公开(公告)号:CN115268848A

    公开(公告)日:2022-11-01

    申请号:CN202210855411.3

    申请日:2022-07-19

    Abstract: 本发明涉及一种基于Spark的测井数据缺失值的分布式填补方法,属于缺失数据填补领域领域。本发明提供的基于Spark的测井数据缺失值的分布式填补方法通过以HDFS作为储存系统,对勘查工作中的测井数据实现分布式存储,作为分布式计算的信息源;安装部署Spark集群,并通过Yarn作为资源管理和任务调度框架;通过构建索引、标准化处理等方法对数据仓库中的测井数据进行二次预处理;通过分布式随机森林和分布式GBT模型,对勘查工作中的测井数据的缺失值进行预测;通过分布式网格搜索+k折交叉验证和Train‑Validation‑Split方法优化分布式预测填补模型。本发明能够为测井的数据缺失问题提供一种精度更高,时间成本更低的解决方案,为测井数据得进一步研究分析与利用提供了保障。

Patent Agency Ranking