一种大语言模型的文档检索增强方法、装置及设备

    公开(公告)号:CN119938884A

    公开(公告)日:2025-05-06

    申请号:CN202510055368.6

    申请日:2025-01-14

    Abstract: 本申请提供一种大语言模型的文档检索增强方法、装置及设备。该方法包括:对于每一原始文本,将原始文本的起始位置作为起点,按照文本的文字顺序查找文本切分符号,根据起点和文本切分符号,基于预设启发式规则与滑动窗口进行文本分割,得到满足文本长度范围的多个文本块;获取原始文本中的所有字号,生成原始文本对应的文档目录结构;将原始文本对应的文档目录结构和对应的各个文本块的向量化文本片段存储到向量数据库中;召回与用户输入最相关的topK个召回文本片段;针对每一召回文本片段,根据对应的文档目录结构,获取召回文本片段的同一级别或更高级别对应的向量化文本片段,得到满足召回文本长度范围的召回长文本。

Patent Agency Ranking