基于PDF模糊查询的向量知识库构建方法及装置、设备、介质

    公开(公告)号:CN118568196A

    公开(公告)日:2024-08-30

    申请号:CN202410625458.X

    申请日:2024-05-20

    Abstract: 本申请的实施例揭示了一种基于PDF模糊查询的向量知识库构建方法及装置、设备、介质。方法包括:响应于输入的PDF文档,对所述PDF文档进行检索,在页面方向或表格方向存在异常的情况下,对存在异常的页面进行旋转处理,以在PDF文档中的所有页面的页面方向均处于设定的页面方向且不存在表格或表格中的字符方向与设定的字符方向一致的情况下,对所述PDF文档中的字符进行提取,得到用于构建向量知识库的文本数据。本申请能够更有效地处理PDF文档,并提高处理的准确性和效率。另外,本申请通过改进PDF文档的处理方法,旨在提高用户对PDF文档的使用体验,进一步促进数字化文档的交流、共享和应用,满足用户对高效、便捷文档处理的需求。

Patent Agency Ranking