一种基于数据分布特征的高维向量压缩方法及装置

    公开(公告)号:CN119088772A

    公开(公告)日:2024-12-06

    申请号:CN202410995164.6

    申请日:2024-07-24

    Inventor: 于雷 李冰 张宇轩

    Abstract: 本发明提出一种基于数据分布特征的高维向量压缩方法,包括:获取待压缩的高维特征向量,该高维特征向量为文本特征向量、图像特征向量、或语音特征向量;统计该高维特征向量中指定维度的数据分布,去除该高维特征向量中数据分布小于预设值的维度,得到压缩中间向量;提取该压缩中间向量的协方差特征,作为该压缩中间向量中指定维度间的相关性,合并该压缩中间向量中相关性大于预设值的维度,得到压缩结果向量。

    一种大规模高维向量最近邻数据检索方法及装置

    公开(公告)号:CN119089005A

    公开(公告)日:2024-12-06

    申请号:CN202410995162.7

    申请日:2024-07-24

    Abstract: 本发明提出了一种大规模高维向量最近邻数据检索方法和装置,面对当前包含海量信息的向量数据集,尽管现有向量查询索引创建方案能给出基于静态数据集的高指向性查询索引,在面临有大批量新增数据加入时缺乏高效的更新方法,难以维持查询索引的指向性。本发明提出了基于改进乘积量化的大规模高维向量查询索引的创建及动态更新方法,在保证较高的查询精度同时将更新消耗限制在较低水平,并维持更新后查询索引较高的指向性。

Patent Agency Ranking