一种基于机器学习的数据表复合主键发现方法

    公开(公告)号:CN119248766A

    公开(公告)日:2025-01-03

    申请号:CN202411113873.3

    申请日:2024-08-14

    Abstract: 本发明公开了一种基于机器学习的数据表复合主键发现方法,其步骤包括:1)对于一样本集,首先识别每一样本的最小UCC的列表;其中,每一样本为一数据表,将不包含重复内容且可用于索引的组合列称为唯一组合列UCC,将不包含其他UCC的UCC定义为最小唯一组合列,即最小UCC;2)对样本的每一最小UCC进行特征提取组合,得到该样本的每一最小UCC的特征向量;3)利用各样本的特征向量训练分类器;4)针对一个待处理数据表A,获取数据表A的各最小UCC对应的特征向量并输入随机森林分类器,得到数据表A的用于生成复合主键的最小UCC,据此生成数据表A的复合主键。本发明仅靠数据表内在信息即可实现复合主键的识别。

    一种基于外键聚合和特征选择的数据血缘发现方法及装置

    公开(公告)号:CN119272158A

    公开(公告)日:2025-01-07

    申请号:CN202411113875.2

    申请日:2024-08-14

    Abstract: 本发明公开了一种基于外键聚合和特征选择的数据血缘发现方法及装置,其步骤包括:1)聚合器根据输入的表格数据集、目标列以及表间外键关系,将与目标列所在的表存在关系的表格聚合成一个与目标表行对齐的中间表;2)映射检测模块验证每一候选映射函数能否根据中间表中的列生成目标列,根据验证结果选取一候选映射函数作为最终的映射函数;然后利用映射函数对中间表中与目标列有数据血缘关系的每一列进行回溯,得到目标列的字段级数据血缘;如果各候选映射函数均不能作为最终的映射函数,则执行步骤3);3)从中间表中筛选出对生成目标列贡献最大的列,作为最优特征子集;对最优特征子集中的每一列进行回溯,得到目标列的字段级数据血缘。

Patent Agency Ranking