-
公开(公告)号:CN118427319A
公开(公告)日:2024-08-02
申请号:CN202410098048.4
申请日:2024-01-23
申请人: 华院计算技术(上海)股份有限公司
摘要: 本申请提供了一种问答方法及装置、存储介质、计算设备,该问答方法包括:获取类比示例和目标问题,类比示例包括示例问题和示例答案;预测示例问题和示例答案的潜在关系;在知识图谱中查找与目标问题具有潜在关系的多个候选答案;根据潜在关系以及目标问题与多个候选答案的候选关系确定目标答案。本申请提供了一种提升大语言模型的问答准确率的方案。
-
公开(公告)号:CN118013011A
公开(公告)日:2024-05-10
申请号:CN202410188250.6
申请日:2024-02-20
申请人: 华院计算技术(上海)股份有限公司
发明人: 史可欢
IPC分类号: G06F16/332 , G06F16/34 , G06F16/28 , G06N3/045
摘要: 本发明公开了一种大语言模型用户历史对话的管理系统、方法、设备及介质,该管理系统包括:处理模块,用于对若干个历史对话数据进行预处理,得到目标对话数据;预处理包括摘要总结处理、向量化处理、实体提取处理和预设轮次抽取处理中至少一种;存储模块,用于将目标对话数据存储于设定数据库;设定数据库包括关系型数据库和向量数据库。本发明利用处理模块实现对用户与大语言模型的历史对话的记录和管理,用户调用存储模块中的目标对话数据作为参考信息与新对话的输入拼接后输入大语言模型,能够大幅度增加大语言模型对历史对话的记忆能力,理解能力和利用效率,减少存储所消耗的硬盘空间。
-
公开(公告)号:CN116340481B
公开(公告)日:2024-05-10
申请号:CN202310182371.5
申请日:2023-02-27
申请人: 华院计算技术(上海)股份有限公司
摘要: 一种自动回复提问的方法及装置、计算机可读存储介质、终端,方法包括:确定问答库,问答库包含多组问题及每组问题对应的一个或多个回答,每组问题包含一个标准问题及其对应的一个或多个相似问题;确定输入提问的第一句向量与所述问答库每个标准问题的第二句向量之间的第一相似度;如果最大第一相似度小于第一阈值,则基于各个第一相似度对问答库进行筛选,得到待匹配问题集;分别确定第一句向量与待匹配问题集的每个问题的第三句向量之间的第二相似度;如果最大第二相似度大于等于第二阈值,则将最大第二相似度所属的问题对应的至少一个回答,作为输入提问的最终回答;其中,第一阈值小于等于第二阈值。上述方案可以提高回答的效率与准确性。
-
公开(公告)号:CN118297107A
公开(公告)日:2024-07-05
申请号:CN202410390211.4
申请日:2024-04-02
申请人: 华院计算技术(上海)股份有限公司
摘要: 本公开提供了一种大语言模型的处理方法、系统、设备、介质及程序产品,处理方法包括:获取数据集;根据数据集生成伪标签数据;根据伪标签数据获取指令微调数据;利用指令微调数据对原始大语言模型进行指令微调,得到新的大语言模型。本公开根据获取的数据集生成伪标签数据;再根据伪标签数据获取指令微调数据;利用指令微调数据对原始大语言模型进行指令微调,得到新的大语言模型,实现了基于伪标签数据对大语言模型进行指令微调,有效的缓解了大语言模型灾难性遗忘的问题,严格遵守了连续学习的形式,降低了计算的复杂度,提高了计算的效率和准确率。
-
公开(公告)号:CN118113845A
公开(公告)日:2024-05-31
申请号:CN202410269522.5
申请日:2024-03-08
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F16/332 , G06F16/35 , G06F18/214
摘要: 本发明提供一种生成式大语言模型选择题评测的方法及系统,其中方法包括以下步骤:获取选择题;对所述选择题进行重构和扩充,得到扩充后的选择题;对各个所述扩充后的选择题进行大模型回答文本匹配和大模型token约束回答,得到大模型答案;对所述大模型答案进行综合评分。本发明能够更全面更有效地检验大模型是否真正理解并拥有解答问题的能力,使得能力评估的分数更为客观准确,对由于模型输出内容不符合规范或者模型输出内容无法被正则模板匹配命中的问题进行补偿,有效地避免大模型直接回答问题时需要二次解析的情况,有效弥补了模型缺乏各个选项之间信息交互的问题,并且支持多选题评测。
-
公开(公告)号:CN118277846A
公开(公告)日:2024-07-02
申请号:CN202410205775.6
申请日:2024-02-23
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F18/241 , G06F18/22 , G06N5/04 , G06F16/35
摘要: 本申请提供了一种短文本分类方法及装置、存储介质、计算设备,该短文本分类方法包括:获取待分类短文本以及体系化标签;计算待分类短文本与体系化标签中各个标签的语义相似度,并根据语义相似度获得与待分类短文本语义最接近的顶层标签候选集以及分类标签候选集;根据顶层标签候选集构建针对顶层标签的第一提示词,并将待分类短文本、第一提示词以及顶层标签候选集输入至大语言模型;根据分类标签候选集以及顶层标签分类结果构建针对分类标签的第二提示词,并将待分类短文本、第二提示词以及分类标签候选集输入至大语言模型,以输出分类结果。本申请提供了一种提升短文本分类准确性的方案。
-
公开(公告)号:CN118051588A
公开(公告)日:2024-05-17
申请号:CN202410176197.8
申请日:2024-02-07
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F16/332 , G06F16/35 , G06F40/30 , G06F18/22
摘要: 一种多选项问答方法及装置、计算机可读存储介质、终端,方法包括:确定多个知识库和第一拼接文本,第一拼接文本是对问题与其全部候选项拼接得到;对每个知识库,通过向量相似度匹配筛选出与第一拼接文本相似度排序靠前的多个匹配句子,并拼接得到该知识库对应的第二拼接文本;对问题与该知识库对应的第二拼接文本进行拼接,得到第三拼接文本,并基于第三拼接文本以及各个候选项预测得到每个候选项相对于该知识库的正确概率值;采用各个知识库的置信度作为权重,将每个候选项相对于各个知识库的正确概率值进行加权运算,得到该候选项的加权概率值;将加权概率值最大的候选项,作为问题的答案。上述方案可以提高多选项问答的准确度和可信度。
-
公开(公告)号:CN117933234A
公开(公告)日:2024-04-26
申请号:CN202410095774.0
申请日:2024-01-23
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F40/253
摘要: 本发明提供一种控制模型输出结构化数据的方法,包括:获取要生成文本的结构和内容要求;基于生成文本的结构和内容要求,构建语法自动机和Tokenizer前缀树;初始化字符级解析器;基于所述语法自动机、Tokenizer前缀树及字符解析器,采用自回归语言模型,生成候选token;基于所述候选token,采用智能token过滤机制,过滤不合法token,选择合法token;基于所述合法token,更新语法自动机状态;基于所述合法token,生成文本片段;验证和生成所述文本片段,得到最终文本。针对现有技术在生成遵循严格格式或结构规则的文本时存在格式不准确、灵活性差、自动化程度不高等诸多限制,导致生成的文本需要大量的人工校对和修改,影响生产效率和成本控制等问题。本发明通过结合语法自动机或类似机制,旨在提供一种提高自回归语言模型输出内容的可解析化程度的方法,确保在生成过程中每个token的选择都符合预定义的格式规则,从而解决了生成文本在格式正确性上的问题。
-
公开(公告)号:CN118014056A
公开(公告)日:2024-05-10
申请号:CN202410217289.6
申请日:2024-02-27
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06N3/098 , G06N3/0455 , G06N20/20 , G06N5/04
摘要: 本发明提供一种数据增强与预测增强方法协同的数学大语言模型微调方法、系统、设备及介质,其特征在于,包括:获取原问题、原答案,通过问题重写和答案细化的方式补充有效的训练样例,获取增广问题和增广答案;基于所述增广问题和增广答案,进行数据集简化计算,获取简化计算数据集;基于所述简化计算数据集,进行预测输出的增强。LLM的性能有较大弊端,没有解题过程,直接给出结果的问答对难以提高推理能力,而受污染或本身就有错的答案标签甚至会降低微调后LLM的正确率,同时仅限简单问题的数据在复杂多步推理的任务中也很少有帮助。针对上述问题,本发明使用合理增广的优质数学推理数据集和针对高精度与复杂运算的简化计算数据集进行训练,对LLM的预测输出进行多次采样和多轮对话后再进行反向传播,最终提高微调后通用大语言模型正确求解算术计算问题的能力。
-
公开(公告)号:CN116881398A
公开(公告)日:2023-10-13
申请号:CN202310818447.9
申请日:2023-07-04
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F16/33 , G06F16/338 , G06F16/31
摘要: 本发明公开一种提升大模型生成信息质量的方法及装置,该方法包括:接收用户输入信息;利用知识库确定所述用户输入信息的辅助信息;根据所述用户输入信息和所述辅助信息,生成基于大模型的反馈信息。利用本发明方案,可以提升大型预训练模型生成信息的时效性和准确性。
-
-
-
-
-
-
-
-
-