一种基于容器云的云边协同海量设备和业务批量控制方法

    公开(公告)号:CN113342458A

    公开(公告)日:2021-09-03

    申请号:CN202110476378.9

    申请日:2021-04-29

    Abstract: 本发明涉及边缘计算领域,尤其是涉及了一种基于容器云的云边协同海量设备和业务批量控制方法,采用打标签分类的方式,对不同的设备和业务进行控制分类,将边缘侧海量的具有计算能力的设备以节点的形式,纳管到容器云集群中,用户在容器云集群中,对设备进行控制和分类,当需要在海量设备中按需求部署业务时,可以通过标签的形式,在某一类设备上进行业务的快速部署,同时,对于海量业务,用户也可以在容器云集群中进行控制和分类,当需要对海量的业务按照需求进行升级时,也可以通过标签的形式,对某一类业务进行快速的升级。本发明方案满足了用户对海量设备海量业务进行控制和维护的需求,大大提升了控制和维护的效率。

    一种PCIe设备远程控制方法、装置、电子设备、介质

    公开(公告)号:CN119536918B

    公开(公告)日:2025-04-11

    申请号:CN202510107481.4

    申请日:2025-01-23

    Abstract: 本发明公开了一种PCIe设备远程控制方法、装置、电子设备、介质,所述装置包括:本地服务器和远端服务器;所述本地服务器上部署有PCIe硬件设备控制组件、虚拟PCIe总线、若干本地RDMA网卡;所述远端服务器上部署有PCIe硬件设备、PCIe硬件设备代理组件、若干远端RDMA网卡;所述PCIe硬件设备控制组件用于实现部署于远端服务器上的PCIe硬件设备在本地CPU上的虚拟PCIe设备呈现;所述虚拟PCIe总线用于为本地CPU管理虚拟PCIe总线及总线上的虚拟PCIe设备;所述PCIe硬件设备代理组件与部署于远端服务器上的PCIe硬件设备一一配对,用于完成远端RDMA网卡与PCIe硬件设备间的PCIe请求的代理转发。

    基于分布式内存管理的大模型训练故障恢复方法和装置

    公开(公告)号:CN119473732B

    公开(公告)日:2025-03-25

    申请号:CN202510067262.8

    申请日:2025-01-16

    Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。

    基于分布式内存管理的大模型训练故障恢复方法和装置

    公开(公告)号:CN119473732A

    公开(公告)日:2025-02-18

    申请号:CN202510067262.8

    申请日:2025-01-16

    Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。

    一种基于向量化指令集的虚拟GPU的实现方法

    公开(公告)号:CN119201361A

    公开(公告)日:2024-12-27

    申请号:CN202411700119.X

    申请日:2024-11-26

    Abstract: 本发明公开了一种基于向量化指令集的虚拟GPU的实现方法,用于在CPU处理器中构建虚拟GPU加速卡,使能处理器平台上的虚拟异构加速计算。本方法包括:以CPU中可伸缩向量指令为基础构建虚拟GPU线程运行环境,其中向量化计算单元中的每一个标量计算单元作为虚拟GPU的一个并行计算核,每一个虚拟GPU并行核拥有独立栈空间作为本地存储空间;由虚拟GPU任务管理器创建虚拟GPU线程所需的任务块空间并管理虚拟GPU任务的运行。本系统通过利用CPU可伸缩向量指令的并行化执行能力,构建了类GPU并行化计算模式,以此构建虚拟GPU,提供了在没有GPU硬件的环境下的GPU使用。

    一种k8s容器云平台中CRD应用集成调用方法与装置

    公开(公告)号:CN115357369A

    公开(公告)日:2022-11-18

    申请号:CN202211290188.9

    申请日:2022-10-21

    Abstract: 本发明公开了一种k8s容器云平台中CRD应用集成调用方法与装置,基于k8s的CRD模块,定义容器应用资源对象,包括控制信息和资源信息;构建其他CRD资源注册机制,注册其他CRD资源信息,并保存对其控制器信息,刷新并读取控制器信息,通过反射的方式运行其他CRD资源的控制器,使得用于运行控制器的最小单元上,能够运行多个其他CRD资源的控制器;将控制器部署到K8s中,用户提交控制信息和已注册的其他CRD资源的资源信息,系统根据控制信息执行控制逻辑,根据资源信息提交相应计算任务到k8s容器云平台中,已注册的其他CRD资源的控制器对计算任务进行处理;从而达到减少了资源的占用的目的。

    一种计算机操作系统的进程自动快速恢复的方法和装置

    公开(公告)号:CN114756355A

    公开(公告)日:2022-07-15

    申请号:CN202210663902.8

    申请日:2022-06-14

    Inventor: 程宏才 华炜

    Abstract: 本发明属于计算机领域,涉及一种计算机操作系统的进程自动快速恢复的方法和装置,该方法包括:步骤一,用户进程创建前,计算机的内核申请地址连续的两块内存作为进程控制块,内核使用其中一块内存进行用户进程创建并作为当前进程控制块;步骤二,用户进程创建完成后,对当前进程控制块的数据进行复制备份至另一块内存即备份进程控制块;步骤三,执行用户进程逻辑后,用户进程的程序出现错误时,触发计算机系统的异常,系统收到异常信号并处理后,通知用户进程该异常信息,用户进程收到异常信息后,从备份进程控制块的数据信息中恢复用户进程数据,使用户进程状态回滚到初始状态,实现进程重启恢复。本发明有效提升了进程重启速度并简化进程管理。

    一种室内定位导航设备和方法

    公开(公告)号:CN113949999A

    公开(公告)日:2022-01-18

    申请号:CN202111055313.3

    申请日:2021-09-09

    Inventor: 程宏才 高丰

    Abstract: 本发明涉及空间定位和导航领域,具体涉及一种室内定位导航设备和方法,该导航设备包括:视觉SLAM定位组件、惯性导航定位组件、定位综合器组件、预设参考点检测组件;所述视觉SLAM定位组件接收视觉图像信号来实时定位设备位置并构建地图,输出视觉SLAM定位数据;惯性导航定位组件估算得到设备的运动轨迹信息,输出惯性导航定位数据及设备实时速度数据;预设参考点检测组件检测设备当前是否位于预设定位参考点位置上,并给出所处的预设参考点位置检测数据;定位综合器组件接收并结合上述数据,基于无模型强化学习方法,输出设备实时的定位数据,得到设备最终位置。本发明具有灵活智能的保持对环境变化的响应能力。

    端云协同的用户隐私保护车辆保险保费计算模型及方法

    公开(公告)号:CN113328989A

    公开(公告)日:2021-08-31

    申请号:CN202110431694.4

    申请日:2021-04-21

    Abstract: 本发明公开了端云协同的用户隐私保护车辆保险保费计算模型及方法,方法包括:S1,端侧用户构建传输的数据包;S2,将数据包从端侧传输到云侧;S3,通过加密数据,筛选云侧共享数据池,得到候选数据集;S4,对候选数据集使用方程组求解恢复属性,得到匹配数据集;S5,生成会话秘钥;S6,对匹配数据集的每一条匹配项的车辆保险保费价格使用会话秘钥加密,并传输给端侧用户,端侧用户解密车辆保险保费价格;端侧模型包括:秘钥生成模块、哈希映射模块、布隆矩阵生成模块、启发式矩阵生成模、解密模块;云侧模型包括:云侧共享数据池、布隆过滤器、加密属性恢复模块、会话秘钥生成模块、车辆保险保费价格传输模块。

Patent Agency Ranking