基于动态管理模型参数的大模型推理加速方法及系统

    公开(公告)号:CN119883593A

    公开(公告)日:2025-04-25

    申请号:CN202411712814.8

    申请日:2024-11-27

    Abstract: 本发明公开一种基于动态管理模型参数的大模型推理加速方法及系统,属于大模型技术领域。所述方法包括:基于PCIE运行带宽和GPU运行带宽,计算大模型在GPU上每组执行推理的层数K;根据层数K将每组模型参数划分为静态参数和动态参数之后,将静态参数加载到GPU显存,并将动态参数保存在CPU内存,以在GPU显存中生成额外键值缓存与动态参数的共享物理显存区域;在GPU上执行第i组的模型推理时,通过PCIE将第i+1组动态参数加载到共享物理显存区域中;其中,第i组的模型推理时间与加载第i+1组动态参数的时间相当。本发明可以利用闲置的CPU内存和PCIE带宽,减少模型参数在显存的总占用,并且通过推理计算和动态参数加载流水线并行,减少动态加载模型带来的额外开销。

    面向AIoT场景支持RISC-V处理器的操作系统

    公开(公告)号:CN114416031A

    公开(公告)日:2022-04-29

    申请号:CN202111614382.3

    申请日:2021-12-27

    Abstract: 本发明公开了一种面向AIoT场景支持RISC‑V处理器的操作系统,其特征在于,包括支持RISC‑V处理器和轻量级基础C库musl的操作系统引导程序,支持RISC‑V处理器和轻量级基础C库musl的Linux操作系统内核,支持轻量级基础C库musl的基本文件系统,以及支持RISC‑V处理器和轻量级基础C库musl的应用组件;其中,引导程序用于引导Linux操作系统内核启动以及完成RISC‑V处理器和硬件接口设备的初始化工作;基本文件系统挂载在Linux操作系统内核之上,用于管理系统中的文件,应用组件用于支持碎片化的AIoT应用场景。本发明适用于AIoT应用场景的碎片化、高实时性、低功耗的情况。

    一种嵌入式设备实现加速计算和高速网络数据传输方法

    公开(公告)号:CN109862023A

    公开(公告)日:2019-06-07

    申请号:CN201910146218.0

    申请日:2019-02-27

    Inventor: 程丽敏 李玲

    Abstract: 本发明提供一种嵌入式设备实现加速计算和高速网络数据传输方法,解决了在嵌入式设备的异构多核处理器实现高速率计算的情况下,为了满足加速计算的需求,通过设计一种网络传输方法来提高网卡的网络传输速率。其主要方法是嵌入式设备异构多核处理器的微处理器核负责接收加速计算的输入数据和参数数据,然后调用异构多核处理器的加速计算核进行加速计算,最后将计算好的结果数据通过以太网发送出去。本发明采用的方法直接以裸板的方式通过以太网发送和接收不包含TCP/IP包头的网络包,从而保证网络传输的速率与加速计算模块的计算速率相匹配,达到整体的性能提升。

    一种嵌入式设备与主机间底层网络数据传输系统及方法

    公开(公告)号:CN109831395A

    公开(公告)日:2019-05-31

    申请号:CN201910146250.9

    申请日:2019-02-27

    Inventor: 程丽敏 李玲

    Abstract: 本发明提供一种嵌入式设备与主机间底层网络数据传输系统及方法,通过在主机端和嵌入式设备端分别组不包含TCP/IP头的裸包,使得在主机端和嵌入式设备端可以在不经过TCP/IP协议栈的情况下,通过底层网络实现网络数据传输,从而提高了网络传输速率。在硬件层,主机端由处理器、网卡和存储器等构成;嵌入式设备由异构多核处理器、网卡和存储器等构成。在软件层,主机端和嵌入式设备端都包含任务流和数据流,任务流负责处理发送、接收等任务相关信息,数据流负责处理发送和接收数据包等相关信息。主机端和嵌入式设备端通过握手的方式配合工作,从而保证较高的底层网络传输速率。

    面向RISC-V架构扩展指令集的可扩展操作系统

    公开(公告)号:CN118689471A

    公开(公告)日:2024-09-24

    申请号:CN202411164761.0

    申请日:2024-08-23

    Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构扩展指令集的可扩展操作系统,硬件层的通用RISC‑V处理器包括基础指令集和部分标准扩展指令集,多样化RISC‑V处理器还包括除了通用处理器所包含的指令集之外的其他标准和非标准扩展指令集;操作系统内核层的通用操作系统内核不支持部分特定的扩展指令集,特定的操作系统内核支持部分特定的扩展指令集;库层的基本模型包括扩展指令集不相关的库,可扩展模型包括扩展指令集不相关的库和扩展指令集相关的库;应用程序层的基本模型包括扩展指令集不相关的应用程序,可扩展模型包括扩展指令集不相关的应用程序和扩展指令集相关的应用程序,无需将对扩展指令集的支持留给用户。

    面向RISC-V架构的操作系统解耦构建方法及装置

    公开(公告)号:CN118626097A

    公开(公告)日:2024-09-10

    申请号:CN202411090391.0

    申请日:2024-08-09

    Abstract: 本发明涉及计算机软件技术领域,提供一种面向RISC‑V架构的操作系统解耦构建方法及装置,将操作系统中的软件组件划分为三类,既节省了使用RISC‑V扩展指令集特定的编译工具链构建扩展指令集不相关软件组件时可能带来的工程量,又省略了可能存在的连续的bug修复过程。此外,本发明使用通用编译工具链构建的扩展指令集不相关的软件组件可以跨不同扩展指令集组合的RISC‑V处理器复用,随着RISC‑V扩展指令集数量的不断增多,不同扩展指令集组合的RISC‑V处理器的数量也随之膨胀,通过跨不同的RISC‑V处理器复用扩展指令集不相关的软件组件可以节省操作系统开发的时间和工程量,提高开发效率。

    一种基于winpcap的高速网络数据传输方法

    公开(公告)号:CN109756517B

    公开(公告)日:2020-10-30

    申请号:CN201910162334.1

    申请日:2019-03-05

    Abstract: 本发明提供一种基于winpcap的高速网络数据传输方法,以一种基于winpcap的主机与嵌入式设备高速网络数据传输方法为例,主机通过winpcap网络接口发送和接收网络数据包,winpcap接口运行于windows系统之上,通过网卡驱动访问网卡硬件,从而减少了TCP/IP协议栈组包和拆包的开销。主机包含处理器、储存器和网卡,存储器上有输入数据buffer,参数数据buffer和输出数据buffer。主机通过winpcap接口将输入数据和参数数据发送到嵌入式设备,并且通过winpcap网络接口将结果数据从嵌入式设备接收回来,并负责完成相应的发送数据包、接收数据包和应答包等的组包和拆包操作,以及相应buffer的读写操作。这样在windows系统网络硬件固定的情况下,提高了windows系统下网络传输的效率,更加充分地利用了网络带宽。

    一种基于winpcap的高速网络数据传输方法

    公开(公告)号:CN109756517A

    公开(公告)日:2019-05-14

    申请号:CN201910162334.1

    申请日:2019-03-05

    Abstract: 本发明提供一种基于winpcap的高速网络数据传输方法,以一种基于winpcap的主机与嵌入式设备高速网络数据传输方法为例,主机通过winpcap网络接口发送和接收网络数据包,winpcap接口运行于windows系统之上,通过网卡驱动访问网卡硬件,从而减少了TCP/IP协议栈组包和拆包的开销。主机包含处理器、储存器和网卡,存储器上有输入数据buffer,参数数据buffer和输出数据buffer。主机通过winpcap接口将输入数据和参数数据发送到嵌入式设备,并且通过winpcap网络接口将结果数据从嵌入式设备接收回来,并负责完成相应的发送数据包、接收数据包和应答包等的组包和拆包操作,以及相应buffer的读写操作。这样在windows系统网络硬件固定的情况下,提高了windows系统下网络传输的效率,更加充分地利用了网络带宽。

    一种大模型键值缓存量化超参数选择方法及系统

    公开(公告)号:CN119623584A

    公开(公告)日:2025-03-14

    申请号:CN202411541171.5

    申请日:2024-10-31

    Abstract: 本发明公开一种大模型键值缓存量化超参数选择方法及系统,属于大模型技术领域。所述方法包括:获取大模型的内存瓶颈或大模型的延迟瓶颈;在内存瓶颈或延迟瓶颈下,计算各键值缓存量化超参数组所能共同达到的最大batch_size;在该最大batch_size下使用一键值缓存量化超参数组进行大模型推理,获取该键值缓存量化超参数组对应的性能与精度的点;基于所有性能与精度的点,生成该大模型所对应的帕累托曲线;根据大模型的应用场景在帕累托曲线上选择键值缓存量化超参数组。本发明可以更轻易地使大模型达到更高的吞吐量。

Patent Agency Ranking