专利检索 ap:("哈尔滨工业大学") AND inv:"李明达" 第 1 页

1.

发明公开
一种大语言模型的集成检索增强方法、电子设备和存储介质审中-实审

公开(公告)号：CN118551835A

公开(公告)日：2024-08-27

申请号：CN202410564146.2

申请日：2024-05-08

申请人： 哈尔滨工业大学

发明人： 张伟男 , 李明达 , 李昕羽 , 陈一帆 , 刘挺

IPC分类号： G06N5/022

摘要： 本发明属于自然语言处理技术领域，具体设计一种大语言模型的集成检索增强方法、电子设备和存储介质。所述集成检索增强方法具体为，控制器根据用户输入调用多个检索器，返回多源多篇文档，并通过多种处理方式将不同文档整合扰动为多篇知识段，分别输入生成模块。生成模块返回多个回复后，控制模块通过回复间的一致性和客观打分器，选出最优回复。将最优参数搜索转化为一个目标函数不可导的优化问题，可以通过元启发搜索算法找到最优的检索增强配置，有效提升大语言模型在事实性问题上的能力。

2.

发明公开
使用CFDs的数据清洗方法、计算机设备和可读存储介质无效

公开(公告)号：CN111352928A

公开(公告)日：2020-06-30

申请号：CN202010124832.X

申请日：2020-02-27

申请人： 哈尔滨工业大学

发明人： 王宏志 , 李明达 , 丁小欧

IPC分类号： G06F16/215 , G06F16/2458

摘要： 本发明涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质，该方法包括：从待清洗的大数据集中进行抽样，在一次扫描中获得训练集；基于训练集发现常量CFD和变量CFD，求得初步CFD集；寻找初步CFD集中无冲突的最大相容规则子集；根据最大相容规则子集对待清洗的大数据集进行清洗。本发明提供的方法适用于大于内存的大数据集清理，能够在一次扫描数据过程中，选择一个小型但有代表性的训练集，计算效率更高，并在发现规则的过程里容忍训练集中的脏的记录，实用性好。