自动推断数据集的数据关系

    公开(公告)号:CN113508375B

    公开(公告)日:2025-04-01

    申请号:CN202080017936.9

    申请日:2020-02-20

    Abstract: 本文所描述的是用于推断多个数据集的数据关系的系统和方法。多个数据集的数据内容(以及可选的元数据)被扫描,以提取数据集中的每个数据集的特征。特征可以与数据的结构、数据集内的数据的简档和/或数据集的元数据有关。每个特征具有相关联的权重。基于已加权特征中的至少一些已加权特征(例如,基于数据集的sim‑散列或最小‑散列),数据集可以被聚类成簇。基于每个簇中的数据集的已加权特征,每个簇中的数据集之间的精确相似性度量被计算。具有高于阈值数量的精确相似性度量的数据集被推断为可能有关的。关于所推断的可能有关的数据集的信息被提供。

    自动推断数据集的数据关系

    公开(公告)号:CN113508375A

    公开(公告)日:2021-10-15

    申请号:CN202080017936.9

    申请日:2020-02-20

    Abstract: 本文所描述的是用于推断多个数据集的数据关系的系统和方法。多个数据集的数据内容(以及可选的元数据)被扫描,以提取数据集中的每个数据集的特征。特征可以与数据的结构、数据集内的数据的简档和/或数据集的元数据有关。每个特征具有相关联的权重。基于已加权特征中的至少一些已加权特征(例如,基于数据集的sim‑散列或最小‑散列),数据集可以被聚类成簇。基于每个簇中的数据集的已加权特征,每个簇中的数据集之间的精确相似性度量被计算。具有高于阈值数量的精确相似性度量的数据集被推断为可能有关的。关于所推断的可能有关的数据集的信息被提供。

Patent Agency Ranking