-
公开(公告)号:CN120045592A
公开(公告)日:2025-05-27
申请号:CN202510202473.8
申请日:2025-02-24
Applicant: 南京邮电大学
IPC: G06F16/2455 , G06F16/22 , G06F16/901 , G06F16/2453
Abstract: 本发明属于数据检索领域,公开了一种面向关联数据集的差异度最大化数据表组合查询方法,数据处理阶段首先对给定的表格数据集进行数据处理,建立特征‑数据列索引,根据该索引发现表格数据集中的可连接表,同时构建数据表连接图索引,预计算各表格之间的连接信息;数据查询阶段根据给定的样例查询表和连接列集合,在特征‑数据列索引中搜索候选连接列集合,获取候选数据表集合,根据给定预算,选取能够与样例查询表连接,并且使差异度最大的数据表集合。本发明首次提出了在关联数据集中搜索可连接数据表组合的方法,利用特征索引过滤可连接数据表,建立数据表连接图发现数据表之间的的连接路径,并返回预算约束下使差异度最大化的数据表集合。