-
公开(公告)号:CN118940299A
公开(公告)日:2024-11-12
申请号:CN202411402787.4
申请日:2024-10-09
Applicant: 天津中科闻歌科技有限公司 , 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种提高目标模型的安全性的方法、电子设备及存储介质,涉及模型技术领域,所述方法能够根据指定数据集的总集获取增量权重列表,进一步的获取第四类指令对应的模拟增量权重,根据模拟增量权重对目标模型的权重进行更新,通过更新目标模型的权重来提高目标模型的安全性,可知本发明通过权重组合的方式获取模拟增量权重,根据模拟增量权重对目标模型的权重进行更新,提高目标模型的安全性的同时能够缓解目标模型针对第五类指令的过度防御,第五类指令为与第四类指令有相似的构建方式但不会指导目标模型违反其内部的安全策略并输出不良内容的指令,无需混合大量的通用指令数据,节省了算力时间消耗,对计算机设备的显存要求较低。
-
公开(公告)号:CN118940299B
公开(公告)日:2025-01-10
申请号:CN202411402787.4
申请日:2024-10-09
Applicant: 天津中科闻歌科技有限公司 , 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种提高目标模型的安全性的方法、电子设备及存储介质,涉及模型技术领域,所述方法能够根据指定数据集的总集获取增量权重列表,进一步的获取第四类指令对应的模拟增量权重,根据模拟增量权重对目标模型的权重进行更新,通过更新目标模型的权重来提高目标模型的安全性,可知本发明通过权重组合的方式获取模拟增量权重,根据模拟增量权重对目标模型的权重进行更新,提高目标模型的安全性的同时能够缓解目标模型针对第五类指令的过度防御,第五类指令为与第四类指令有相似的构建方式但不会指导目标模型违反其内部的安全策略并输出不良内容的指令,无需混合大量的通用指令数据,节省了算力时间消耗,对计算机设备的显存要求较低。
-
公开(公告)号:CN118627492A
公开(公告)日:2024-09-10
申请号:CN202411092157.1
申请日:2024-08-09
Applicant: 北京中科闻歌科技股份有限公司 , 天津中科闻歌科技有限公司
IPC: G06F40/216 , G06F40/226
Abstract: 本发明提供了一种检测目标模型的方法、电子设备及存储介质,涉及模型检测技术领域,所述方法能够根据指定选择题数据列表集合的总集和目标模型获取预设选项标签列表对应的第一累计被选择次数列表集合,获取第一累计被选择次数列表集合对应的关键向量列表集合并获取关键向量列表集合对应的关键向量相关系数列表,当大于预设向量相关系数的关键向量相关系数的数量与所有关键向量相关系数的比值不大于预设比值时,确定目标模型在生成选择题答案时不存在选项标签偏见或选项位置偏好,可知本发明能够检测出目标模型在生成选择题答案时是否存在选项标签偏见或选项位置偏好,有利于增强目标模型的可靠性,提高目标模型在教育和测试等环境中的公正性。
-
公开(公告)号:CN118503424A
公开(公告)日:2024-08-16
申请号:CN202410649214.5
申请日:2024-05-23
Applicant: 天津中科闻歌科技有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F18/241 , G06F18/214 , G06N10/60
Abstract: 本发明公开了一种基于多任务量子启发式神经网络的文本分类方法,包含以下步骤:步骤1、针对收集的海量数据先进行正则化、降重、剔除信息熵含量低的文本处理;步骤2、制作数据集,将数据集中的文本按最终任务需求进行划分;步骤3、对整理的数据集再进行细粒度分类,按需划分为训练集、测试集与验证集。本发明融合了量子启发式神经网络与多任务学习的功能,借鉴了量子计算的原理与解析文本特征间的相互作用,同时处理多个相互关联的任务。通过这种方式,本方法可以更精细地捕捉到文本内容的多样性和复杂性。
-
公开(公告)号:CN117786465A
公开(公告)日:2024-03-29
申请号:CN202410199457.3
申请日:2024-02-23
Applicant: 北京中科闻歌科技股份有限公司 , 天津中科闻歌科技有限公司
IPC: G06F18/24 , G06F18/214 , G06N3/08
Abstract: 本发明公开了一种领域预训练模型数据构建方法和系统,包括:自动化数据质量筛选模块。本模块采用混合算法,结合领域专家知识和自定义规则,自动筛选用于标注的原始数据质量,对于低质量的文本数据在本环节直接排除掉。自定义的规则包括:文本信息熵筛查、困惑度筛查、重复度筛查、完整性筛查。本发明一种领域预训练模型数据构建系统及方法,能够提高数据集的质量和多样性,确保预训练模型在领域的应用场景中发挥出最佳的效能。
-
公开(公告)号:CN118627492B
公开(公告)日:2025-01-24
申请号:CN202411092157.1
申请日:2024-08-09
Applicant: 北京中科闻歌科技股份有限公司 , 天津中科闻歌科技有限公司
IPC: G06F40/216 , G06F40/226
Abstract: 本发明提供了一种检测目标模型的方法、电子设备及存储介质,涉及模型检测技术领域,所述方法能够根据指定选择题数据列表集合的总集和目标模型获取预设选项标签列表对应的第一累计被选择次数列表集合,获取第一累计被选择次数列表集合对应的关键向量列表集合并获取关键向量列表集合对应的关键向量相关系数列表,当大于预设向量相关系数的关键向量相关系数的数量与所有关键向量相关系数的比值不大于预设比值时,确定目标模型在生成选择题答案时不存在选项标签偏见或选项位置偏好,可知本发明能够检测出目标模型在生成选择题答案时是否存在选项标签偏见或选项位置偏好,有利于增强目标模型的可靠性,提高目标模型在教育和测试等环境中的公正性。
-
公开(公告)号:CN118485046A
公开(公告)日:2024-08-13
申请号:CN202410907835.9
申请日:2024-07-08
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/169 , G06F16/35 , G06F18/214 , G06F18/27 , G06F40/35 , G06F16/332
Abstract: 本公开提供了一种标注数据处理方法和装置,涉及人工智能技术领域,具体涉及自然语言处理、深度学习、大模型等技术领域。具体实现方案为:获取初始标注指令数据集,初始标注指令数据集包括标注回复文本数据;基于初始标注指令数据集中的标注回复文本数据,得到筛选标注指令数据集,筛选标注指令数据集中的标注回复文本数据不具有重复内容;基于筛选标注指令数据集,确定内容问题类型;基于内容问题类型以及多种不同类型的大模型,对筛选标注指令数据集进行处理,得到目标标注指令数据集。
-
公开(公告)号:CN118485046B
公开(公告)日:2024-09-17
申请号:CN202410907835.9
申请日:2024-07-08
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/169 , G06F16/35 , G06F18/214 , G06F18/27 , G06F40/35 , G06F16/332
Abstract: 本公开提供了一种标注数据处理方法和装置,涉及人工智能技术领域,具体涉及自然语言处理、深度学习、大模型等技术领域。具体实现方案为:获取初始标注指令数据集,初始标注指令数据集包括标注回复文本数据;基于初始标注指令数据集中的标注回复文本数据,得到筛选标注指令数据集,筛选标注指令数据集中的标注回复文本数据不具有重复内容;基于筛选标注指令数据集,确定内容问题类型;基于内容问题类型以及多种不同类型的大模型,对筛选标注指令数据集进行处理,得到目标标注指令数据集。
-
-
-
-
-
-
-