-
公开(公告)号:CN119829962A
公开(公告)日:2025-04-15
申请号:CN202411724634.1
申请日:2024-11-28
Applicant: 同济大学
IPC: G06F18/21 , G06F18/214 , G06F18/24 , G06N3/0499
Abstract: 本发明公开了一种基于隐层激活的偏见幻觉检测方法。该方法包括:根据语言模型回答的行为特征评估信念状态,获得信念状态评估结果,所述信念状态反映该语言模型对回答的不确定程度;基于所述信念状态评估结果构建训练集,并训练信念状态分类器,所述训练集反映所述语言模型的信念状态与隐层激活之间的对应关系;实时获取目标语言模型生成过程中的隐层激活,并根据该隐层激活,利用经训练的信念状态分类器判断信念状态;对于检测出的幻觉,结合所述目标语言模型的输出正确性与所述信念状态分类器判断出的信念状态,判断幻觉类别。本发明基于模型隐层激活进行信念状态判定,提高了偏见幻觉检测的准确率。