大语言模型的训练方法、装置、设备和介质

    公开(公告)号:CN116821684B

    公开(公告)日:2024-10-11

    申请号:CN202310814621.2

    申请日:2023-07-04

    摘要: 本公开提供了一种大语言模型的训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及自然语言处理和深度学习等技术领域。该方法包括:获取大规模无监督文本数据;从大规模问答数据中提取多个问题答案对;基于多个问题答案对,构建弱监督指令数据,包括:针对多个问题答案对中的每一个问题答案对,将该问题答案对中的问题作为样本指令,并将该问题答案对中的答案作为与样本指令对应的真值回复数据,构建与该问题答案对对应的指令训练样本;以及基于与多个问题答案对各自对应的指令训练样本,构建弱监督指令数据;以及利用包括大规模无监督文本数据和弱监督指令数据的混合训练数据,对大语言模型进行预训练。

    文本生成方法、文本生成模型的训练方法及装置

    公开(公告)号:CN118312598A

    公开(公告)日:2024-07-09

    申请号:CN202410572183.8

    申请日:2023-06-30

    摘要: 本公开提供了一种文本生成方法、文本生成模型的训练方法及装置,涉及人工智能技术领域,尤其涉及自然语言处理、深度学习、强化学习等领域。实现方案为:获取第一问题文本;将历史步骤序列文本初始化为预设值;以及基于第一问题文本,对历史步骤序列文本进行至少一次更新,以得到目标步骤序列文本,每一次更新包括:基于第一问题文本和当前的历史步骤序列文本,生成当前的步骤文本,当前的步骤文本表示第一问题的当前解答步骤;响应于当前的步骤文本不是预设的终止文本,将当前的历史步骤序列文本与当前的步骤文本进行拼接,以得到更新后的历史步骤序列文本;响应于当前的步骤文本是终止文本,将当前的历史步骤序列文本确定为目标步骤序列文本。

    数据处理方法、装置、电子设备以及存储介质

    公开(公告)号:CN116542298B

    公开(公告)日:2024-06-28

    申请号:CN202310565645.9

    申请日:2023-05-19

    IPC分类号: G06N3/048 G06F17/16

    摘要: 本公开提供了数据处理方法、装置、电子设备以及存储介质,涉及数据处理技术领域,尤其涉及人工智能、深度学习、模型推理优化等技术领域。具体实现方案为:从存储介质中读取待处理对象的激活矩阵,以及目标神经网络层的参数矩阵;采用至少一个内核从激活矩阵中分离出第一矩阵和第二矩阵,并从参数矩阵中分离出第三矩阵和第四矩阵;对第一矩阵和第三矩阵执行矩阵乘积操作,得到第一处理结果;对第二矩阵和第四矩阵执行矩阵乘积操作,得到第二处理结果;将第一处理结果和第二处理结果进行融合,得到目标神经网络层对激活矩阵的数据处理结果。本公开实施例可节约存储空间的同时,加速大模型的推理速度,以提高资源的利用率。

    对话生成方法、深度学习模型的训练方法、装置和设备

    公开(公告)号:CN116303962B

    公开(公告)日:2024-05-28

    申请号:CN202310280513.1

    申请日:2023-03-21

    摘要: 本公开提供了一种对话生成方法、深度学习模型的训练方法、装置和设备,涉及人工智能领域,具体涉及自然语言处理、深度学习技术、计算机视觉等领域。对话生成方法包括:获取第一对话上文,第一对话上文包含闲聊内容;确定与第一对话上文对应的第一提示文本,其中,响应于确定深度学习模型基于第一对话上文需要生成包含知识内容的对话回复,第一提示文本包括指示深度学习模型生成包含知识内容的针对第一对话上文的对话回复的意图表示;以及将第一对话上文和第一提示文本输入深度学习模型,以获得第一对话回复。

    检索模型的训练方法、装置、设备和计算机存储介质

    公开(公告)号:CN112148895B

    公开(公告)日:2024-01-23

    申请号:CN202011023354.X

    申请日:2020-09-25

    摘要: 本申请公开了一种检索模型的训练方法、装置、设备和计算机存储设备,涉及智能搜索和自然语言处理技术。具体实现方案为:获取初始训练数据;利用初始训练数据训练得到初始检索模型;利用初始检索模型从候选文本中选择与训练数据中的查询项的相关度满足预设第一要求的文本以更新该查询项对应的相关文本负例;利用更新后的训练数据训练得到第一检索模型;利用第一检索模型,从候选文本中选择与训练数据中的查询项的相关度满足预设第二要求的文本以扩充该查询项对应的相关文本正例,和/或,选择与该查询项的相关度满足预设第三要求的文本用以扩充相关文本负例;利用扩充后的训练数据训练得到第二检索模型。本申请能够降低对高质量训练数据的要求。

    语义表示模型的预训练方法、装置、电子设备及存储介质

    公开(公告)号:CN112560499B

    公开(公告)日:2024-01-09

    申请号:CN202011463938.9

    申请日:2020-12-11

    IPC分类号: G06F40/30 G06N20/00

    摘要: 本申请公开了语义表示模型的预训练方法、装置、电子设备及存储介质,涉及深度学习技术领域、自然语言处理NLP技术领域等人工智能技术领域。具体实现方案为:获取样本文本的乱序片段序列,以及乱序片段序列中N个片段在样本文本中的原始排序顺序;针对乱序片段序列中的第i个片段,将乱序片段序列中第i‑1个片段的语义融合向量以及第i个片段,输入语义表示模型以获取第i个片段的语义融合向量;将第N片段的语义融合向量输入预测模型以生成N个片段在样本文本中的预测排序顺序;根据原始排序顺序以及预测排序顺序,对语义表示模型和预测模型进行预训练,从而能够对整个样本文本进行处理,学习到样本文本的全局信息,提高语义表示模型的处理效率。

    用于人机交互的方法、装置、设备和介质

    公开(公告)号:CN114578969B

    公开(公告)日:2023-10-20

    申请号:CN202210237909.3

    申请日:2020-12-30

    摘要: 本公开公开了用于人机交互的方法、装置、设备和介质,涉及人工智能领域,尤其涉及深度学习、语音技术和计算机视觉领域。具体实现方案为:基于接收的语音信号,生成针对语音信号的答复的答复文本;基于语音信号单元与文本单元之间的映射关系,生成与答复文本相对应的答复语音信号,答复文本包括一组文本单元;基于答复文本确定表情和/或动作的标识,其中由虚拟对象呈现表情和/或动作;以及基于答复语音信号、表情和/或动作的标识,生成包括虚拟对象的输出视频,输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。通过该方法,可以显著的增加交互内容的范围,改进人机交互的质量和水平,提高用户体验。