-
公开(公告)号:CN114281989B
公开(公告)日:2024-06-18
申请号:CN202111516164.6
申请日:2021-12-06
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/31 , G06F40/194 , G06F18/23213 , G06F16/215
Abstract: 本发明涉及大数据处理领域,具体涉及一种基于文本相似度的数据去重方法、装置及存储介质和服务器;所述方法包括对初始文本数据和增量文本数据分别预处理;从初始文本数据中抽取部分样本,采用层次聚类算法对其分类,并确定出一级索引;采用k‑means聚类算法将所有初始文本数据哈希值划分到层次聚类算法对应的类别中,构建出二级索引,并将二级索引的地址指向一级索引;通过检索二级索引,对初始文本数据去重,并从二级索引选择排名靠前的作为常驻索引,结合常驻索引、二级索引和一级索引,对增量文本数据进行去重处理。本发明能提高内存命中率,有效减少磁盘I/O操作,极大减少去重任务对系统资源的占用,有效降低企业数据的存储成本。
-
公开(公告)号:CN114281989A
公开(公告)日:2022-04-05
申请号:CN202111516164.6
申请日:2021-12-06
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/31 , G06F40/194 , G06K9/62 , G06F16/215
Abstract: 本发明涉及大数据处理领域,具体涉及一种基于文本相似度的数据去重方法、装置及存储介质和服务器;所述方法包括对初始文本数据和增量文本数据分别预处理;从初始文本数据中抽取部分样本,采用层次聚类算法对其分类,并确定出一级索引;采用k‑means聚类算法将所有初始文本数据哈希值划分到层次聚类算法对应的类别中,构建出二级索引,并将二级索引的地址指向一级索引;通过检索二级索引,对初始文本数据去重,并从二级索引选择排名靠前的作为常驻索引,结合常驻索引、二级索引和一级索引,对增量文本数据进行去重处理。本发明能提高内存命中率,有效减少磁盘I/O操作,极大减少去重任务对系统资源的占用,有效降低企业数据的存储成本。
-