-
公开(公告)号:CN118643050A
公开(公告)日:2024-09-13
申请号:CN202410665916.2
申请日:2024-05-27
Applicant: 复旦大学
IPC: G06F16/242
Abstract: 本发明公开了一种基于大型语言模型的自然语言到SQL转换方法,涉及信息技术领域,步骤1:数据库模式剪枝;利用预先训练好的大语言模型分析输入的自然语言查询,自动剪枝数据库模式,排除与查询无关的表格和字段;步骤2:SQL骨架预测,基于剪裁后的数据库模式和输入的自然语言查询,基于大语言模型预测SQL骨架构建可预测的SQL骨架;步骤3:样例选择;根据预测出的SQL骨架从预先定义的SQL样例库中选出与之匹配的SQL样例;步骤4:数据库适配;将大语言模型生成的SQL根据特定数据库进行调整,修正具体的数据库的SQL查询,使得生成的SQL语句能够在特定的数据库环境中执行。
-
公开(公告)号:CN116932570A
公开(公告)日:2023-10-24
申请号:CN202310749648.8
申请日:2023-06-21
Applicant: 复旦大学
IPC: G06F16/242 , G06F16/23 , G06F16/2455
Abstract: 本申请涉及信息技术领域,公开了基于自然语言生成结构化查询语言的方法和装置,该方法包括:将接收到的自然语言语句转换为初始结构化查询语言语句,并获取中间状态信息;基于中间状态信息,检测出组成初始结构化查询语言语句的多个查询单元中的一个或多个错误查询单元;将一个或多个错误查询单元分类成一个或多个错误类别;根据错误类别,为错误类别中的每个错误查询单元生成一个或多个候选项,并根据每个错误查询单元以及对应的一个或多个候选项,生成自然语言交互语句;接收用户基于自然语言交互语句输入的反馈,并基于反馈对每个错误查询单元进行修改和存储。本发明避免了模型在转换的过程中出现重复的错误,提高了模型的转换准确度。
-
公开(公告)号:CN117331835A
公开(公告)日:2024-01-02
申请号:CN202311322798.7
申请日:2023-10-12
Applicant: 复旦大学
IPC: G06F11/36 , G06F16/2452
Abstract: 本发明涉及数据集的处理方法,包括:接收多个第一SQL语句‑自然语言对;对于每个所述第一SQL语句‑自然语言对,将其中的第一SQL语句切分为SQL语句单元,将其中的第一自然语言切分为自然语言单元,并将所述SQL语句单元和所述自然语言单元对齐;将多个所述SQL语句单元和对齐的所述自然语言单元组合为多个第二SQL语句‑自然语言对;将多个所述第二SQL语句‑自然语言对分为训练集和测试集。本发明还涉及SQL‑自然语言翻译模型的测试的方法、数据集的处理和SQL‑自然语言翻译模型的测试装置,以及计算设备集群、计算机程序产品和介质。
-
公开(公告)号:CN116756167A
公开(公告)日:2023-09-15
申请号:CN202310545980.2
申请日:2023-05-15
Applicant: 复旦大学
IPC: G06F16/242 , G06F16/25 , G06F16/28 , G06F18/214
Abstract: 本申请涉及信息技术领域,公开了一种用于生成数据库的查询语句集合的方法、训练排序模型的方法,生成数据库的查询语句集合的方法包括:标注步骤,从数据库的多个样本结构化查询语言SQL语句中提取出多个关键词,并获取每个关键词的语义标注;重组步骤,将每个样本SQL语句拆分成多个查询单元,并基于预设重组规则,将多个查询单元进行多次重组,得到多个候选SQL语句;转换步骤,基于多个语义标注,将每个候选SQL语句转换为模板语言语句,得到多个模板语言语句,其中,多个候选SQL语句和多个模板语言语句形成查询语句集合。本发明可以提高数据查询结果的准确率。
-
-
-