一种大语言模型的集成检索增强方法、电子设备和存储介质

    公开(公告)号:CN118551835A

    公开(公告)日:2024-08-27

    申请号:CN202410564146.2

    申请日:2024-05-08

    IPC分类号: G06N5/022

    摘要: 本发明属于自然语言处理技术领域,具体设计一种大语言模型的集成检索增强方法、电子设备和存储介质。所述集成检索增强方法具体为,控制器根据用户输入调用多个检索器,返回多源多篇文档,并通过多种处理方式将不同文档整合扰动为多篇知识段,分别输入生成模块。生成模块返回多个回复后,控制模块通过回复间的一致性和客观打分器,选出最优回复。将最优参数搜索转化为一个目标函数不可导的优化问题,可以通过元启发搜索算法找到最优的检索增强配置,有效提升大语言模型在事实性问题上的能力。

    使用CFDs的数据清洗方法、计算机设备和可读存储介质

    公开(公告)号:CN111352928A

    公开(公告)日:2020-06-30

    申请号:CN202010124832.X

    申请日:2020-02-27

    IPC分类号: G06F16/215 G06F16/2458

    摘要: 本发明涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质,该方法包括:从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;基于训练集发现常量CFD和变量CFD,求得初步CFD集;寻找初步CFD集中无冲突的最大相容规则子集;根据最大相容规则子集对待清洗的大数据集进行清洗。本发明提供的方法适用于大于内存的大数据集清理,能够在一次扫描数据过程中,选择一个小型但有代表性的训练集,计算效率更高,并在发现规则的过程里容忍训练集中的脏的记录,实用性好。