-
公开(公告)号:CN120012835A
公开(公告)日:2025-05-16
申请号:CN202510492694.3
申请日:2025-04-18
Applicant: 深圳华为云计算技术有限公司
IPC: G06N3/0455 , G06N3/096 , G06N5/04
Abstract: 本申请实施例公开了一种模型训练方法,该方法中,可以根据第一模型中的预设注意力模块的模型参数与第二模型中的MLA模块中的模型参数的相关性,将预设注意力模块中的模型权重变换为MLA模块的初始化的模型权重,以将预设注意力模块中的知识迁移至初始化后的MLA模块中,为初始化后的第二模型提供较好的知识基础,然后对MLA模块进行微调等小规模的训练即可获得性能较好的训练后的第二模型,而无需对第二模型从零开始执行完整的全流程训练过程,大大提升对第二模型的训练效率。
-
公开(公告)号:CN119808939A
公开(公告)日:2025-04-11
申请号:CN202411822919.9
申请日:2024-12-11
Applicant: 深圳华为云计算技术有限公司
IPC: G06N5/04 , G06F18/214 , G06N3/0475
Abstract: 一种模型训练数据生成方法,包括:获取用户输入的第一数据,第一数据为与用户所需推理场景相关的词元分布或文本;基于基础模型的语料库中的词元在第一数据中的分布,构建词元池,词元池含语料库中的词元,词元池中的每个词元的数量均大于或等于预设数量,基础模型与推理场景相关;基于词元池和基础模型,得到训练数据,训练数据包含样本和标签,样本为n+1个词元和n+1个词元中前n个词元的隐藏状态,标签为n+1个词元中第n+1个词元的隐藏状态,n+1个词元是从词元池中选取的,n+1个词元的隐藏状态是通过基础模型对n+1个词元做推理得到。该方法可有效避免使用真实语料所可能导致的隐私泄露问题,同时可避免真实语料库过小而造成的训练数据量过少的问题。
-