一种文本数据的处理方法、装置及设备

    公开(公告)号:CN118673118B

    公开(公告)日:2024-11-29

    申请号:CN202410815468.X

    申请日:2024-06-24

    Inventor: 刘丹 范乾 徐芳

    Abstract: 本发明提供了一种文本数据的处理方法、装置及设备,属于计算机信息处理技术领域,解决了基于原始分布式搜索进行文本检索容易导致原始数据泄漏问题。该方法包括:获取待检索文本数据;将待检索文本数据中的字符进行向量化处理,得到检索文本向量;根据检索文本向量与多个文档向量的相似度,得到检索词表数据,其中,多个文档向量是对多个文本数据中的每个字符进行向量化处理得到;将检索词表数据与词表文件进行映射转换处理,得到待检索文本数据的目标检索数据,其中,词表文件是对多个文档数据中的字符进行遍历处理得到。该方案通过将文本转换为向量和词表文件的形式,能够避免索引中存储原始文档内容,实现了对内容进行保护的同时又能够高效检索。

    一种文本数据的处理方法、装置及设备

    公开(公告)号:CN118673118A

    公开(公告)日:2024-09-20

    申请号:CN202410815468.X

    申请日:2024-06-24

    Inventor: 刘丹 范乾 徐芳

    Abstract: 本发明提供了一种文本数据的处理方法、装置及设备,属于计算机信息处理技术领域,解决了基于原始分布式搜索进行文本检索容易导致原始数据泄漏问题。该方法包括:获取待检索文本数据;将待检索文本数据中的字符进行向量化处理,得到检索文本向量;根据检索文本向量与多个文档向量的相似度,得到检索词表数据,其中,多个文档向量是对多个文本数据中的每个字符进行向量化处理得到;将检索词表数据与词表文件进行映射转换处理,得到待检索文本数据的目标检索数据,其中,词表文件是对多个文档数据中的字符进行遍历处理得到。该方案通过将文本转换为向量和词表文件的形式,能够避免索引中存储原始文档内容,实现了对内容进行保护的同时又能够高效检索。

Patent Agency Ranking