应答信息生成方法、系统、装置、设备、介质及程序产品

    公开(公告)号:CN118093847B

    公开(公告)日:2024-07-19

    申请号:CN202410518171.7

    申请日:2024-04-28

    Abstract: 本发明涉及人工智能问答技术领域,具体公开了应答信息生成方法、系统、装置、设备、介质及程序产品,在通过根据输入的问题信息获取提示词输入语言模型进行推理计算的过程中,在利用局部过滤注意力层增强模型的自然语言表达能力的基础上,在每次推理计算中进入局部过滤注意力层时,获取上一次推理计算保存的结尾输入张量拼接至卷积层的输入张量之前,并保存本次推理计算卷积层的结尾输入张量,使得从每次推理计算只需输入上一次推理计算生成的标记即可,可以有效减少计算量,提升模型推理效率,进而提高了应答信息生成的效率,同时减少了对计算设备的存储资源和计算资源的需求,降低了计算设备完成人工智能问答任务的压力。

    应答信息生成方法、系统、装置、设备、介质及程序产品

    公开(公告)号:CN118093847A

    公开(公告)日:2024-05-28

    申请号:CN202410518171.7

    申请日:2024-04-28

    Abstract: 本发明涉及人工智能问答技术领域,具体公开了应答信息生成方法、系统、装置、设备、介质及程序产品,在通过根据输入的问题信息获取提示词输入语言模型进行推理计算的过程中,在利用局部过滤注意力层增强模型的自然语言表达能力的基础上,在每次推理计算中进入局部过滤注意力层时,获取上一次推理计算保存的结尾输入张量拼接至卷积层的输入张量之前,并保存本次推理计算卷积层的结尾输入张量,使得从每次推理计算只需输入上一次推理计算生成的标记即可,可以有效减少计算量,提升模型推理效率,进而提高了应答信息生成的效率,同时减少了对计算设备的存储资源和计算资源的需求,降低了计算设备完成人工智能问答任务的压力。

    推理引擎创建方法、产品、设备及计算机可读存储介质

    公开(公告)号:CN118469024B

    公开(公告)日:2024-10-15

    申请号:CN202410924977.6

    申请日:2024-07-11

    Abstract: 本发明公开了一种推理引擎创建方法、产品、设备及计算机可读存储介质,涉及推理领域,为解决推理引擎不便于在设备上部署的问题,该方法包括获取初始模型的各个网络层的权重;确定每一网络层的权重变化为目标权重后对模型损失的影响参数,基于每一影响参数确定每一网络层的权重为主要权重或次要权重;按量化精度需求对主要权重进行第一量化操作得到第一权重,并获取第一量化操作对应的第一补偿参数;对主要权重对应的网络层进行算子融合操作,得到与初始模型对应的推理引擎。本发明能够在实现对模型最大程度的压缩的同时,最大程度维持初始模型的原有精度,减小对计算设备的存储空间的占用,便于在计算设备上部署,提高了推理引擎的推理准确性。

    推理引擎创建方法、产品、设备及计算机可读存储介质

    公开(公告)号:CN118469024A

    公开(公告)日:2024-08-09

    申请号:CN202410924977.6

    申请日:2024-07-11

    Abstract: 本发明公开了一种推理引擎创建方法、产品、设备及计算机可读存储介质,涉及推理领域,为解决推理引擎不便于在设备上部署的问题,该方法包括获取初始模型的各个网络层的权重;确定每一网络层的权重变化为目标权重后对模型损失的影响参数,基于每一影响参数确定每一网络层的权重为主要权重或次要权重;按量化精度需求对主要权重进行第一量化操作得到第一权重,并获取第一量化操作对应的第一补偿参数;对主要权重对应的网络层进行算子融合操作,得到与初始模型对应的推理引擎。本发明能够在实现对模型最大程度的压缩的同时,最大程度维持初始模型的原有精度,减小对计算设备的存储空间的占用,便于在计算设备上部署,提高了推理引擎的推理准确性。

Patent Agency Ranking