一种基于大语言模型的多模态文件检索方法、系统及介质

    公开(公告)号:CN118035473A

    公开(公告)日:2024-05-14

    申请号:CN202410035529.0

    申请日:2024-01-09

    Applicant: 广州大学

    Abstract: 本发明公开了一种基于大语言模型的多模态文件检索方法、系统及介质,该方法包括:获取包括图像文件和音频文件的多模态文件;通过预设的Donut模型对图像文件进行处理,得到第一文本文件,并通过预设的Whisper模型对音频文件进行处理,得到第二文本文件;根据查询序列与第一文本文件和第二文本文件之间的相似程度得到多个候选检索结果;对各候选检索结果进行切片处理,得到多个候选检索片段,将各候选检索片段和预设的提示模板输入大语言模型,得到目标检索结果。本发明一方面能够实现多模态文件检索,另一方面能够根据文件上下文自动纠错,并根据用户需要进行精确检索,可靠度和检索精度高,可广泛应用于文件检索技术处理领域。

Patent Agency Ranking