Invention Publication
- Patent Title: 用于确定数据集之间差异的方法、系统、设备及存储介质
-
Application No.: CN202410811082.1Application Date: 2024-06-21
-
Publication No.: CN118656371APublication Date: 2024-09-17
- Inventor: 王平辉 , 狄佳 , 林晓龙 , 杨浩鑫 , 李润东 , 赵俊舟 , 王晨旭 , 马杰 , 裴红斌 , 陶敬
- Applicant: 西安交通大学
- Applicant Address: 陕西省西安市碑林区咸宁西路28号
- Assignee: 西安交通大学
- Current Assignee: 西安交通大学
- Current Assignee Address: 陕西省西安市碑林区咸宁西路28号
- Agency: 北京润泽恒知识产权代理有限公司
- Agent 陈宏
- Main IPC: G06F16/22
- IPC: G06F16/22 ; G06F16/2458

Abstract:
本申请公开了一种用于确定数据集之间差异的方法、系统、装置、电子设备及计算机可读存储介质,应用于数据服务端,本申请利用截断几何分布条件的性质,使得数据集中的数据能够按照与哈希函数对应的概率分布被记录,从而通过使用预设的哈希函数确定数据集的梗概数据,在保持数据集完整性的同时,有效减少数据存储空间的需求生成梗概压缩数据,再通过对目标数据集的梗概压缩数据进行异或操作,快速获得目标数据集之间的梗概差数据;最终通过求解期望函数来确定数据集之间的差异值。在保证分析结果准确度的同时,有效降低内存占用,解决了大数据的数据集差异分析过程中,内存占用与分析结果准确度不能兼顾的问题。
Information query