发明授权
- 专利标题: 一种海量短文本去重方法及系统
-
申请号: CN202410750394.6申请日: 2024-06-12
-
公开(公告)号: CN118331950B公开(公告)日: 2024-08-27
- 发明人: 韩硕 , 张瑞冬 , 童永鳌 , 朱鹏
- 申请人: 成都无糖信息技术有限公司
- 申请人地址: 四川省成都市高新区吉瑞二路188号1栋2单元11-14楼
- 专利权人: 成都无糖信息技术有限公司
- 当前专利权人: 成都无糖信息技术有限公司
- 当前专利权人地址: 四川省成都市高新区吉瑞二路188号1栋2单元11-14楼
- 代理机构: 成都为知盾专利代理事务所
- 代理商 李汉强
- 主分类号: G06F16/215
- IPC分类号: G06F16/215 ; G06F16/33 ; G06F18/22 ; G06F18/23213 ; G06F16/35
摘要:
本发明公开了一种海量短文本去重方法及系统,第一步,通过对文本进行预处理,便于后续计算;第二步,使用MinHash方案,将文本编码为MinHash向量;第三步,将第二步中生成的MinHash向量存储到MinHash向量库,MinHash向量库分为临时向量库和持久向量库中;第四步设置多级距离阈值,并利用分桶技术,对MinHash向量库建立索引;第五步,缓存流式数据,并在积累一定数据之后形成批数据,并对批数据进行去重分析,结束流程。本发明解决了现有技术对短文本定位不准确、对向量的存储成本和召回计算成本太高的问题。
公开/授权文献
- CN118331950A 一种海量短文本去重方法及系统 公开/授权日:2024-07-12