-
公开(公告)号:CN117688144A
公开(公告)日:2024-03-12
申请号:CN202311389581.8
申请日:2023-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/33 , G16H80/00
Abstract: 本申请公开了一种数据构建方法、模型训练方法、答案确定方法及相关装置,该方法包括:获取样本医学问题;基于样本医学问题,构建关于样本医学问题的正样本知识数据,以及,构建关于样本医学问题的负样本知识数据;其中,正样本知识数据为对回答样本医学问题有帮助的第一医学知识数据,负样本知识数据为对回答样本医学问题无帮助的第二医学知识数据,正样本知识数据和负样本知识数据用于对经预训练的语言大模型进行微调,经微调后的语言大模型能够生成对应于输入的医学问题的答案。通过上述方式,本申请能够构建高质量的用于微调语言大模型的样本数据。
-
公开(公告)号:CN117216226A
公开(公告)日:2023-12-12
申请号:CN202311386064.5
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/33 , G06N3/0455
Abstract: 本申请公开了一种知识定位方法、装置、存储介质及设备,该方法包括:首先获取待回复的目标问题文本;并利用目标问题文本,基于预设信息搜索引擎进行信息检索和信息解析,得到与目标问题文本相关的目标文本,然后利用目标文本和目标问题文本构建定位提示指令prompt,输入至预先构建的知识定位模型,得到知识定位模型输出的与目标问题文本相关的文本信息,接着,将目标问题文本以及与其相关的文本信息,输入通用生成模型,得到通用生成模型输出的针对目标问题文本的答复内容。可见,本申请是利用预先构建知识定位模型和通用生成模型的进行答复内容中每个字符的逐次生成,不仅能够提高定位结果的准确性,还可以生成更精确的问题回复。
-
公开(公告)号:CN116628514A
公开(公告)日:2023-08-22
申请号:CN202310505745.2
申请日:2023-05-05
Applicant: 科大讯飞股份有限公司
IPC: G06F18/22 , G06F18/214 , G06F16/35 , G06F16/332 , G06F40/194
Abstract: 本申请提出一种训练数据的评估方法、装置、电子设备和存储介质,能够计算预先采集的问题数据与训练数据之间的相似度,若训练数据中存在至少一条与问题数据之间的相似度大于设定相似度阈值的目标训练数据,则确定问题数据解答成功,若所有问题数据的问题解答率小于设定的问题解答率阈值,则根据所有解答失败的问题数据,生成并输出训练数据的第一补充数据指示信息,其中,问题解答率表示所有问题数据中、解答成功的问题数据的数量在所有问题数据的占比。以便于能够根据第一补充数据指示信息对训练数据进行补充,使训练数据的完整性符合语音模型的训练要求,从而可以提升模型训练效果和训练效率。
-
-