基于LLaMA的财税问答模型构建方法、装置、设备及介质

发明公开

CN117076631A 基于LLaMA的财税问答模型构建方法、装置、设备及介质审中-实审

请登陆查看更多内容

专利标题： 基于LLaMA的财税问答模型构建方法、装置、设备及介质
申请号： CN202311024423.2

申请日： 2023-08-15
公开(公告)号： CN117076631A

公开(公告)日： 2023-11-17
发明人: 施建生 , 王唯炜 , 徐煌 , 刘子星 , 沈懿忱
申请人： 税友软件集团股份有限公司
申请人地址： 浙江省杭州市滨江区浦沿街道南环路3738号
专利权人： 税友软件集团股份有限公司
当前专利权人： 税友软件集团股份有限公司
当前专利权人地址： 浙江省杭州市滨江区浦沿街道南环路3738号
代理机构： 北京集佳知识产权代理有限公司
代理商 李海建
主分类号： G06F16/332
IPC分类号： G06F16/332 ; G06F16/33 ; G06F16/335 ; G06F40/279 ; G06F18/214 ; G06Q40/12

摘要：

本申请公开了一种基于LLaMA的财税问答模型构建方法、装置、设备及介质，涉及模型训练领域，包括：通过低阶自适应技术利用预设中文训练集对预设LLaMA‑7B模型进行微调，以得到通用中文语言大模型；获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据；对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集；基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。这样一来，可以基于收集的财税语料在垂直领域对模型进行训练，减小模型训练难度，得到应用于财税行业专项领域的问答模型。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/33	..••查询
G06F16/332	...•••查询公式