-
公开(公告)号:CN118551835A
公开(公告)日:2024-08-27
申请号:CN202410564146.2
申请日:2024-05-08
申请人: 哈尔滨工业大学
IPC分类号: G06N5/022
摘要: 本发明属于自然语言处理技术领域,具体设计一种大语言模型的集成检索增强方法、电子设备和存储介质。所述集成检索增强方法具体为,控制器根据用户输入调用多个检索器,返回多源多篇文档,并通过多种处理方式将不同文档整合扰动为多篇知识段,分别输入生成模块。生成模块返回多个回复后,控制模块通过回复间的一致性和客观打分器,选出最优回复。将最优参数搜索转化为一个目标函数不可导的优化问题,可以通过元启发搜索算法找到最优的检索增强配置,有效提升大语言模型在事实性问题上的能力。
-
公开(公告)号:CN111352928A
公开(公告)日:2020-06-30
申请号:CN202010124832.X
申请日:2020-02-27
申请人: 哈尔滨工业大学
IPC分类号: G06F16/215 , G06F16/2458
摘要: 本发明涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质,该方法包括:从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;基于训练集发现常量CFD和变量CFD,求得初步CFD集;寻找初步CFD集中无冲突的最大相容规则子集;根据最大相容规则子集对待清洗的大数据集进行清洗。本发明提供的方法适用于大于内存的大数据集清理,能够在一次扫描数据过程中,选择一个小型但有代表性的训练集,计算效率更高,并在发现规则的过程里容忍训练集中的脏的记录,实用性好。
-