-
公开(公告)号:CN117591661A
公开(公告)日:2024-02-23
申请号:CN202410076463.X
申请日:2024-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/09 , G06N3/0895
Abstract: 本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。
-
公开(公告)号:CN117591661B
公开(公告)日:2024-04-26
申请号:CN202410076463.X
申请日:2024-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/09 , G06N3/0895
Abstract: 本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。
-