-
公开(公告)号:CN118170827B
公开(公告)日:2024-08-09
申请号:CN202410605468.7
申请日:2024-05-16
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明属于数据处理技术领域,具体涉及一种基于等价类结构的数据间函数依赖关系挖掘方法。该方法包括:步骤1,遍历每列数据,获得等价类结构;对原始数据集进行重构,主要分为去除属性、属性重排序和压缩取值;步骤2,对元组对进行伪随机采样,比较样本,生成非函数依赖,并在满足停止条件时停止,然后在FD‑tree结构上对非函数依赖进行归纳操作,得到候选函数依赖项;步骤3,对FD‑tree结构中的候选函数依赖项进行验证,将候选项进行分组,每个分组对应一个属性的等价类结构,按属性排序的倒序,使用相应等价类结构对分组中的候选项进行验证。本发明的方法能够高效快速地求得给定数据实例的函数依赖关系。
-
公开(公告)号:CN118170827A
公开(公告)日:2024-06-11
申请号:CN202410605468.7
申请日:2024-05-16
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明属于数据处理技术领域,具体涉及一种基于等价类结构的数据间函数依赖关系挖掘方法。该方法包括:步骤1,遍历每列数据,获得等价类结构;对原始数据集进行重构,主要分为去除属性、属性重排序和压缩取值;步骤2,对元组对进行伪随机采样,比较样本,生成非函数依赖,并在满足停止条件时停止,然后在FD‑tree结构上对非函数依赖进行归纳操作,得到候选函数依赖项;步骤3,对FD‑tree结构中的候选函数依赖项进行验证,将候选项进行分组,每个分组对应一个属性的等价类结构,按属性排序的倒序,使用相应等价类结构对分组中的候选项进行验证。本发明的方法能够高效快速地求得给定数据实例的函数依赖关系。
-
公开(公告)号:CN116501738A
公开(公告)日:2023-07-28
申请号:CN202310470834.8
申请日:2023-04-27
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/22 , G06F16/245
Abstract: 本发明提供了一种海量数据Top‑kskyline组查询方法,包括阶段一、应用G‑Skyline的验证定理依次扫描预排序表中的数据点,直到扫描完所有数据点,得到包含全部的候选点及skyline点的孩子集的候选点集;阶段二、由候选点集枚举生成候选组,枚举轮次的判断由左部定理、右部定理以及近似定理完成;计算候选组得分,维护Top‑k得分阈值;生成Top‑k候选组的孩子G‑Skyline组,更新Top‑k候选组得到最终结果。利用预排续表作为索引结构,只需构建一次就可以应用于所有属性组合场景。利用预排序实现了早中止,减少了筛选候选点需要扫描的数据规模。基于左部定理、右部定理以及近似定理三个计算定理提出了高效的计算方法,降低了G‑Skyline组得分上界并极大地减少了G‑Skyline组的生成数量和计算量。
-
公开(公告)号:CN114528332A
公开(公告)日:2022-05-24
申请号:CN202210060831.2
申请日:2022-01-19
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高效用高占用比项集;对于长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项集,再利用双向栈中的项构建一棵集合枚举树,在集合枚举树上按照深度优先搜索的顺序对项集进行遍历挖掘;同时根据支持度向下闭合属性、效用占用比向下闭合属性、3‑项集完全剪枝策略对项集进行剪枝,结合项集链接策略和剩余TID交叉计数策略进行挖掘。本发明有效解决了当前算法无法处理大规模数据集的问题。
-
-
-