-
公开(公告)号:CN112784989B
公开(公告)日:2024-05-03
申请号:CN201911089253.X
申请日:2019-11-08
申请人: 阿里巴巴集团控股有限公司
摘要: 本发明实施例提供了一种推理系统及方法,其中,推理系统包括相互连接的第一计算设备和第二计算设备,第一计算设备中设置有推理客户端,第二计算设备中包括推理加速资源以及推理服务端;推理客户端用于获取进行推理的计算模型的模型信息和待推理数据,并分别将模型信息和待推理数据发送至第二计算设备中的推理服务端;推理服务端用于通过推理加速资源载入并调用模型信息指示的计算模型,通过计算模型对待推理数据进行推理处理并向推理客户端反馈推理处理的结果。
-
公开(公告)号:CN110968393B
公开(公告)日:2023-05-02
申请号:CN201811163322.2
申请日:2018-09-30
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F9/455
摘要: 本申请公开了一种虚拟机的迁移处理方法、存储介质、计算设备。其中,该方法包括:在将虚拟机迁移至目标宿主设备上时,初始化源宿主设备中第一图形处理单元对应的第一缓存空间,其中,上述第一缓存空间用于存储上述第一图形处理单元对应的任务;在初始化上述第一缓存空间后,将预先备份的未执行的任务加载至上述第一缓存空间中;将上述未执行的任务发送至上述目标宿主设备的第二图形处理单元。本申请解决了在虚拟机进行热迁移的过程中,虚拟机无法实现在不中断业务的情况下迁移到目标宿主机的技术问题。
-
公开(公告)号:CN110968443B
公开(公告)日:2023-04-11
申请号:CN201811145890.X
申请日:2018-09-28
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F11/07
摘要: 本发明公开了一种设备异常的检测方法及装置。其中,该方法包括:通过高速串行计算机扩展总线PCIe的流量控制特性监视PCIe终端设备的PCIe链路存储数据包的容量;在数据包的容量达到预设阈值的情况下,控制PCIe链路关闭,并触发错误报告消息,其中,错误报告消息是PCIe的错误报告机制触发的错误报告消息;通过错误报告消息触发驱动程序检测PCIe终端设备的状态,以确定PCIe终端设备是否异常。本发明解决了相关技术中AER驱动程序响应缓慢导致来不及处理修复硬件带来的宿主机的宕机风险的技术问题。
-
公开(公告)号:CN111124459B
公开(公告)日:2023-04-07
申请号:CN201811288984.2
申请日:2018-10-31
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F8/654
摘要: 本发明实施例提供了一种FPGA云服务器服务逻辑的更新方法及装置,FPGA云服务器中的FPGA存储器划分有至少两个存储分区,不同的存储分区用于存储不同的服务逻辑版本;FPGA云服务器中存储有映射关系,映射关系为不同的服务逻辑版本与其各自存储分区的对应关系;该方法包括:接收FPGA云服务器服务逻辑更新请求,更新请求中携带有FPGA云服务器更新到的服务逻辑版本的版本信息;查询映射关系,获取存储版本信息的目标存储分区;将目标存储分区中存储的服务逻辑版本更新到FPGA云服务器的FPGA中。因此,本发明实施例提供的方案可以降低更新FPGA云服务器服务逻辑的资源和运维成本。
-
公开(公告)号:CN111651290B
公开(公告)日:2023-03-31
申请号:CN201910159612.8
申请日:2019-03-04
申请人: 阿里巴巴集团控股有限公司
摘要: 本发明提供了一种监控云平台上FPGA的方法,包括:在生成比特流加载文件过程中,对所述加载文件进行规则检测;如果检测结果为异常,则中断所述生成比特流加载文件过程,同时,向客户端提示所述异常。其中,所述生成比特流加载文件过程在云平台执行。如果云平台上FPGA的逻辑崩溃,则启动补救措施。此外,本发明实施例还公开了一种监控云平台上FPGA的装置、电子设备、计算机程序产品及存储介质。本发明的技术方案本发明通过在云平台实现对危险逻辑的预防检测机制以及危险出现后的补救机制,最大限度地保证云平台的系统安全;检测与补救的结果都会与用户保持互动,指导用户的设计,规范用户行为,提升用户体验。
-
公开(公告)号:CN113377492B
公开(公告)日:2022-05-24
申请号:CN202010163765.2
申请日:2020-03-10
申请人: 阿里巴巴集团控股有限公司
摘要: 本发明实施例公开了一种内存管理方法、装置、电子设备及计算机可读存储介质,所述方法包括:确定先行锁定的第一内存资源和延迟锁定的第二内存资源;响应于预设虚拟机操作被触发,对于所述第一内存资源执行先行锁定操作;响应于所述预设虚拟机操作完成,释放所述第一内存资源,对于所述第二内存资源执行延迟锁定操作。该技术方案使得即使对于大容量的内存资源,也不会明显增加虚拟机启动的时间,进而能够在保障虚拟机运行质量的前提下,提高虚拟机的启动和运行的速度和效率。
-
公开(公告)号:CN113377491A
公开(公告)日:2021-09-10
申请号:CN202010163242.8
申请日:2020-03-10
申请人: 阿里巴巴集团控股有限公司
摘要: 本发明实施例公开了一种驱动数据处理方法、装置、电子设备及计算机存储介质,所述方法包括:响应于虚拟GPU实例启动,启动驱动安装组件;通过所述驱动安装组件从预设驱动信息数据源中自动获取与所述虚拟GPU实例对应的宿主机GPU驱动信息;通过所述驱动安装组件从预设驱动安装文件数据源获取与所述宿主机GPU驱动信息对应的GPU驱动安装文件并进行安装。该技术方案能够自动识别宿主机GPU驱动信息,自动安装对应的驱动文件,能够自动、持续地保持各虚拟机上安装的虚拟GPU实例驱动版本信息与宿主机上安装的GPU驱动版本信息之间的对应关系,因此有效避免了运维人力成本的投入和驱动信息通信的滞后,有利于提升虚拟机的业务运行质量。
-
公开(公告)号:CN113313248A
公开(公告)日:2021-08-27
申请号:CN202110218718.8
申请日:2021-02-26
申请人: 阿里巴巴集团控股有限公司
摘要: 本申请提供了一种共享自适应度优化方法及装置。将模型中的参数划分为至少两组参数集,获取每一组参数集对应的原始梯度。根据各个组参数集对应的原始梯度对各个组参数集对应的当前学习率进行自适应调整,得到各个组参数集对应的目标学习率,至少根据各个组参数集对应的目标学习率对各个组参数集中的参数进行优化。优化同一组参数集中的参数的过程使用的目标学习率可以相同,如此可以提高同一组参数集中的参数能够收敛到更优解的可能性,进而可以尽可能地提高模型的泛化性。优化不同组的参数集的过程使用的目标学习率可以不同,进而使得各个组参数集中的参数可以快速收敛。综上,本申请可以在参数快速收敛以及参数收敛到更优解这两方面兼顾平衡。
-
公开(公告)号:CN113312098A
公开(公告)日:2021-08-27
申请号:CN202010250663.4
申请日:2020-04-01
申请人: 阿里巴巴集团控股有限公司
IPC分类号: G06F9/445
摘要: 本申请实施例提供一种程序加载方法、设备、系统及存储介质。本申请实施例提供的云服务系统包括:存储节点和FPGA云服务器;其中,存储节点存储有程序。FPGA云服务器包括:管理模块和至少一个FPGA硬件模块,且管理模块和FPGA硬件模块通过数据总线通信连接。在本申请实施例中,管理模块可从存储节点中获取需要加载程序的目标FPGA硬件模块待加载的目标程序,并通过数据总线将目标程序提供给目标FPGA硬件模块,这样目标FPGA硬件模块便可加载目标程序。管理模块和FPGA硬件模块之间通过数据总线实现数据通信,无需通过FPGA云服务器的中央处理器,这样,用户便无法截获目标程序,进而有助于提高程序加载的安全性。
-
公开(公告)号:CN113301067A
公开(公告)日:2021-08-24
申请号:CN202010251615.7
申请日:2020-04-01
申请人: 阿里巴巴集团控股有限公司
摘要: 本说明书实施例提供机器学习应用的云配置推荐方法以及装置,其中所述机器学习应用的云配置推荐方法包括:在使用第一数据集在第一云配置上进行机器学习训练测试时,收集训练参数,第一数据集为完整数据集的部分数据集;利用所述训练参数,预测出在第一云配置上进行第二数据集训练的训练时间,第二数据集为所述完整数据集或者所述完整数据集的其他部分数据集;利用在第一云配置上进行第二数据集训练的训练时间以及预设的训练时间比例关系,预测出未测云配置的第二数据集训练时间,所述预设的训练时间比例关系包括所述第一云配置与所述未测云配置之间的训练时间比例关系;根据未测云配置以及第一云配置各自的第二数据集训练时间,确定推荐的云配置。
-
-
-
-
-
-
-
-
-