-
公开(公告)号:CN119493820A
公开(公告)日:2025-02-21
申请号:CN202311032603.5
申请日:2023-08-16
Applicant: 复旦大学
Abstract: 本发明提供了一种面向工业领域的文档信息抽取方法,具有这样的特征,包括以下步骤:步骤S1,对通用大模型进行第一阶段微调,得到简单微调模型;步骤S2,根据现有的公开数据构建复杂抽取指令数据集;步骤S3,根据复杂抽取指令数据集对简单微调模型进行第二阶段微调,得到复杂微调模型;步骤S4,对现有的目标场景的文档数据进行转换,得到对应的工业领域抽取数据集;步骤S5,根据工业领域抽取数据集对复杂微调模型的模型参数进行低秩调整得到适配模型;步骤S6,将原始工业文档以及预设的抽取任务指令和提示输入适配模型得到抽取信息。总之,本方法能够提高利用通用大模型抽取工业文档信息的准确性。