一种基于MapReduce的度量空间相似连接处理方法

    公开(公告)号:CN106777133A

    公开(公告)日:2017-05-31

    申请号:CN201611173516.1

    申请日:2016-12-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于MapReduce的度量空间相似连接处理方法。本发明基于MapReduce分布式计算框架,设计高效的度量空间相似连接处理方法,对重复冗余的数据进行检测和删除。本发明先在Map阶段对给定的数据集进行划分,而后在Reduce阶段进行相似性计算以得到重复数据结果,进而进行删除。在Map阶段,本发明对数据集进行采样;根据样本数据获得高质量的支枢点;将整个度量空间中的数据集通过支枢点映射到向量空间;最后利用基于KD树的划分技术,对数据集进行尽可能均匀的划分。在Reduce阶段,本发明利用区域过滤和平面扫描法技术,实现对数据进行带有效剪枝的相似度计算,得到相似连接处理的结果。本发明极大地提高了相似连接处理效率,提供了最佳的性能。

    机器学习模型的分布式训练方法及装置、电子设备、介质

    公开(公告)号:CN113487036B

    公开(公告)日:2022-06-17

    申请号:CN202110704799.2

    申请日:2021-06-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种机器学习模型的分布式训练方法及装置、电子设备、介质,该方法采用梯度键值对表示所述梯度向量中的非零元素;保留绝对值大于设定阈值的所述梯度值;通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;根据所述增量梯度键,得到长度标志位;对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;再将所述压缩的梯度值和梯度键用于节点间传输,降低了各节点传输的梯度数据通信量,进而达到了提升机器学习模型分布式训练效率的技术效果。

    机器学习模型的分布式训练方法及装置、电子设备、介质

    公开(公告)号:CN113487036A

    公开(公告)日:2021-10-08

    申请号:CN202110704799.2

    申请日:2021-06-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种机器学习模型的分布式训练方法及装置、电子设备、介质,该方法采用梯度键值对表示所述梯度向量中的非零元素;保留绝对值大于设定阈值的所述梯度值;通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;根据所述增量梯度键,得到长度标志位;对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;再将所述压缩的梯度值和梯度键用于节点间传输,降低了各节点传输的梯度数据通信量,进而达到了提升机器学习模型分布式训练效率的技术效果。

    一种基于发布/订阅模式的分布式度量相似查询处理方法

    公开(公告)号:CN107273464B

    公开(公告)日:2020-05-12

    申请号:CN201710408855.1

    申请日:2017-06-02

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于发布/订阅模式的分布式度量相似查询处理方法。在系统构建阶段,本发明将给定的度量空间数据集通过支枢点映射至向量空间;在分布式系统中,首先利用基于KD树的划分技术将数据划分到各个节点;其次各个节点建立局部索引并统计内部数据信息;最后各个节点组织成树形结构。在处理相似查询请求时,本发明在发布/订阅模式下,将查询请求作为任务发布到分布式系统中;各个工作节点利用基于相交的方法判断、订阅属于自己职责范围的任务,而后对其进行处理,将查询结果返回给用户。本发明充分利用了数据库中的索引、查询技术,采用统一的方法来处理度量相似查询,丰富和优化了分布式环境下的相似查询处理方法。

    一种基于发布/订阅模式的分布式度量相似查询处理方法

    公开(公告)号:CN107273464A

    公开(公告)日:2017-10-20

    申请号:CN201710408855.1

    申请日:2017-06-02

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于发布/订阅模式的分布式度量相似查询处理方法。在系统构建阶段,本发明将给定的度量空间数据集通过支枢点映射至向量空间;在分布式系统中,首先利用基于KD树的划分技术将数据划分到各个节点;其次各个节点建立局部索引并统计内部数据信息;最后各个节点组织成树形结构。在处理相似查询请求时,本发明在发布/订阅模式下,将查询请求作为任务发布到分布式系统中;各个工作节点利用基于相交的方法判断、订阅属于自己职责范围的任务,而后对其进行处理,将查询结果返回给用户。本发明充分利用了数据库中的索引、查询技术,采用统一的方法来处理度量相似查询,丰富和优化了分布式环境下的相似查询处理方法。

Patent Agency Ranking