基于条件生成模型的高效近似查询处理算法

    公开(公告)号:CN113177078A

    公开(公告)日:2021-07-27

    申请号:CN202110487805.3

    申请日:2021-04-30

    Abstract: 本发明属于信息检索技术领域,具体涉及一种近似查询处理算法。基于条件生成模型的高效近似查询处理算法,包括:采用聚集预计算获得用户查询的预聚集值;对用户查询进行处理,获得估计用户查询与预聚集范围之间差异的新查询newQ以及选择的预聚集值;构建基于Wasserstein的条件变分生成对抗网络模型,利用训练完成的模型为新查询newQ生成数据样本;对生成的数据样本进行过滤,并将过滤后的数据样本与选择的预聚集值相结合,计算得到最终的查询估计值。本发明的方法构建了一种高效的深度生成模型,并引入Wasserstein距离作为误差衡量,消除模型坍塌;将该模型应用于近似查询,并与聚集预计算相结合,同时采用表决算法,降低近似查询误差。

    海量数据中基于后缀划分的高效用高占用比项集挖掘算法

    公开(公告)号:CN114528332A

    公开(公告)日:2022-05-24

    申请号:CN202210060831.2

    申请日:2022-01-19

    Abstract: 本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高效用高占用比项集;对于长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项集,再利用双向栈中的项构建一棵集合枚举树,在集合枚举树上按照深度优先搜索的顺序对项集进行遍历挖掘;同时根据支持度向下闭合属性、效用占用比向下闭合属性、3‑项集完全剪枝策略对项集进行剪枝,结合项集链接策略和剩余TID交叉计数策略进行挖掘。本发明有效解决了当前算法无法处理大规模数据集的问题。

    基于条件生成模型的近似查询处理算法

    公开(公告)号:CN113177078B

    公开(公告)日:2022-06-17

    申请号:CN202110487805.3

    申请日:2021-04-30

    Abstract: 本发明属于信息检索技术领域,具体涉及一种近似查询处理算法。基于条件生成模型的高效近似查询处理算法,包括:采用聚集预计算获得用户查询的预聚集值;对用户查询进行处理,获得估计用户查询与预聚集范围之间差异的新查询newQ以及选择的预聚集值;构建基于Wasserstein的条件变分生成对抗网络模型,利用训练完成的模型为新查询newQ生成数据样本;对生成的数据样本进行过滤,并将过滤后的数据样本与选择的预聚集值相结合,计算得到最终的查询估计值。本发明的方法构建了一种高效的深度生成模型,并引入Wasserstein距离作为误差衡量,消除模型坍塌;将该模型应用于近似查询,并与聚集预计算相结合,同时采用表决算法,降低近似查询误差。

    海量数据中基于后缀划分的高效用高占用比项集挖掘算法

    公开(公告)号:CN114528332B

    公开(公告)日:2024-11-01

    申请号:CN202210060831.2

    申请日:2022-01-19

    Abstract: 本发明公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1‑项集和2‑项集进行计算,判断其是否为高效用高占用比项集;对于长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项集,再利用双向栈中的项构建一棵集合枚举树,在集合枚举树上按照深度优先搜索的顺序对项集进行遍历挖掘;同时根据支持度向下闭合属性、效用占用比向下闭合属性、3‑项集完全剪枝策略对项集进行剪枝,结合项集链接策略和剩余TID交叉计数策略进行挖掘。本发明有效解决了当前算法无法处理大规模数据集的问题。

    一种用于挖掘电商交易数据中高利润商品的方法

    公开(公告)号:CN112801793A

    公开(公告)日:2021-05-14

    申请号:CN202110132598.X

    申请日:2021-01-31

    Abstract: 本发明属于海量数据挖掘与处理技术领域,涉及电商交易数据中高利润商品的挖掘方法。一种用于挖掘电商交易数据中高利润商品的方法,包括:根据每个商品的前缀不同,将每次交易记录中首个商品作为前缀项,将交易记录中具有相同前缀项的的商品集分在同一个分区里;所述商品集为一项式商品集或二项式商品集;分别计算每个分区的twu值,twu记录了该分区的最大利润效用值,将每个分区的twu值,与用户设定的利润阈值minU比较:a.若twu<minU,则跳过该分区,进入下一个分区;b.若twu≥minU,则计算该分区内每个商品集在整个分区中的利润效用值UIPa[i].twu,并将所有UIPa[i].twu降序排序,从大到小依次与利润阈值minU比较,找到大于等于利润阈值minU的商品集。本发明的方法,性能更优,效率更高。

    大规模数据中非支配的频繁-效用项集的高效挖掘方法

    公开(公告)号:CN116484320A

    公开(公告)日:2023-07-25

    申请号:CN202310420433.1

    申请日:2023-04-19

    Abstract: 本发明提供了一种大规模数据中非支配的频繁‑效用项集的高效挖掘方法,包括:根据前缀对数据集进行划分和网格存储;根据网格中存储的项的属性值,初始化多层索引链表结构,并按反对角线序读取网格;对于每个网格,将多层索引链表中存储的最大效用值作为条件约束,依次读取网格中满足约束的项所对应的前缀分片;在每个分片中,将满足条件约束的项加入到拓展集合中;依次拓展集合中的项,获得在支持度和效用值两个属性上具有支配能力的项集并将其加入到结果项集中。本发明提出了基于前缀划分策略、网格存储方式以及三组剪枝策略,能在大规模的海量数据上进行高效计算,有效剪枝掉大量无希望的项集,极大地节省了方法的空间开销和时间开销。

    一种用于挖掘电商交易数据中高利润商品的方法

    公开(公告)号:CN112801793B

    公开(公告)日:2022-04-15

    申请号:CN202110132598.X

    申请日:2021-01-31

    Abstract: 本发明属于海量数据挖掘与处理技术领域,涉及电商交易数据中高利润商品的挖掘方法。一种用于挖掘电商交易数据中高利润商品的方法,包括:根据每个商品的前缀不同,将每次交易记录中首个商品作为前缀项,将交易记录中具有相同前缀项的的商品集分在同一个分区里;所述商品集为一项式商品集或二项式商品集;分别计算每个分区的twu值,twu记录了该分区的最大利润效用值,将每个分区的twu值,与用户设定的利润阈值minU比较:a.若twu<minU,则跳过该分区,进入下一个分区;b.若twu≥minU,则计算该分区内每个商品集在整个分区中的利润效用值UIPa[i].twu,并将所有UIPa[i].twu降序排序,从大到小依次与利润阈值minU比较,找到大于等于利润阈值minU的商品集。本发明的方法,性能更优,效率更高。

Patent Agency Ranking