基于Tensorflow框架的深度学习训练方法

    公开(公告)号:CN114021715A

    公开(公告)日:2022-02-08

    申请号:CN202111163121.4

    申请日:2021-09-30

    Abstract: 本申请提供一种基于Tensorflow框架的深度学习训练方法,包括:接收深度学习训练请求;将深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点;将本地FPGA节点注册为Tensorflow框架对应的VFPGA设备;配置VFPGA设备的前向算子和反向算子,并编译前向算子和反向算子得到FPGA的bit文件;烧写bit文件到本地FPGA节点,生成本地FPGA节点对应的FPGA设备;利用FPGA设备执行深度学习训练。本申请降低了通信时延,从而提高了深度学习训练效率。本申请还提供一种基于Tensorflow框架的深度学习训练系统、FPGA板卡、计算机可读存储介质和电子设备,具有上述有益效果。

    一种数据处理系统、方法及计算机系统

    公开(公告)号:CN119046211B

    公开(公告)日:2025-05-09

    申请号:CN202411534503.7

    申请日:2024-10-31

    Abstract: 本发明公开了一种数据处理系统、方法及计算机系统,涉及计算机系统领域,为解决访问扩展内存的访问路径长、访问延时大的问题,该数据处理系统包括处理板和内存扩展板,处理板上设有处理核心、第一控制器,内存扩展板上设有存储组件和控制组件。本发明能够使处理板可以对内存扩展板上的存储组件直接进行访问,而无需通过服务器主机进行内存拷贝,降低了处理板访问扩展内存时和服务器主机之间的耦合度,在有效扩展了处理板的内存的同时,缩短了处理板对扩展内存的访问路径,降低了访问延时,从而减小了预训练模型训练过程中的通信瓶颈。

    基于Tensorflow框架的深度学习训练方法

    公开(公告)号:CN114021715B

    公开(公告)日:2025-02-11

    申请号:CN202111163121.4

    申请日:2021-09-30

    Abstract: 本申请提供一种基于Tensorflow框架的深度学习训练方法,包括:接收深度学习训练请求;将深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点;将本地FPGA节点注册为Tensorflow框架对应的VFPGA设备;配置VFPGA设备的前向算子和反向算子,并编译前向算子和反向算子得到FPGA的bit文件;烧写bit文件到本地FPGA节点,生成本地FPGA节点对应的FPGA设备;利用FPGA设备执行深度学习训练。本申请降低了通信时延,从而提高了深度学习训练效率。本申请还提供一种基于Tensorflow框架的深度学习训练系统、FPGA板卡、计算机可读存储介质和电子设备,具有上述有益效果。

    一种数据的读写方法、产品、数据加速器以及介质

    公开(公告)号:CN119045776A

    公开(公告)日:2024-11-29

    申请号:CN202411534508.X

    申请日:2024-10-31

    Abstract: 本发明公开了一种数据的读写方法、产品、数据加速器以及介质,涉及数据处理技术领域。将直接来自于矩阵乘加速单元的非完整行顺序的数据,在缓存中按照完整行的顺序保存,需要将其矩阵乘加速单元的结果数据输出顺序通过分片的大小和行列维度位置对应进行转换处理,以适应非矩阵乘单元对应的写入顺序;避免将矩阵乘加速单元的数据写回片外存储器后再读取的高延迟操作。在非矩阵乘单元输出的数据存储顺序将其进行填充处理,使得填充后的第三数据的矩阵维度与矩阵乘加速单元的矩阵维度相同,实现为实际计算结果生成符合矩阵乘加速单元所需要的数据维度的功能,避免将非矩阵乘加速单元的数据写回片外存储器后再读取的高延迟操作。

    图形处理单元显存处理方法、服务器、产品、设备及介质

    公开(公告)号:CN118279126B

    公开(公告)日:2024-08-30

    申请号:CN202410696331.7

    申请日:2024-05-31

    Inventor: 刘俊 李霞 王彦伟

    Abstract: 本发明公开了一种图形处理单元显存处理方法、服务器、产品、设备及介质,涉及图形处理单元技术领域。在图形处理单元的显存不满足所需的内存请求的情况下,将位于图形处理单元显存内的访问频次小于预设次数的物理页面迁移至主机内存,提高了图形处理单元的可用性和利用率。通过记录物理页面的访问频次,能够准确地确定出各物理页面的访问情况,进而准确地将位于图形处理单元显存内的第一物理页面移动到主机的内存中;主机和图形处理单元之间通过计算快速链路协议以及基于访问频次的情况进行物理页面的移动,实现了图形处理单元的显存与主机内存的上层无感知的内存调度交换,提高了图形处理单元显存处理的通用性,适用于不同的AI模型的处理需求。

    一种池化异构资源启动方法、装置、设备及存储介质

    公开(公告)号:CN114936043B

    公开(公告)日:2024-02-09

    申请号:CN202210551809.8

    申请日:2022-05-20

    Abstract: 本申请公开了一种池化异构资源启动方法、装置、设备及存储介质,涉及异构资源虚拟化技术领域,包括:监测应用服务器是否开始启动,得到相应的监测结果;根据监测结果确定是否下载应用逻辑存储服务器中预先存储的应用逻辑至池化异构资源并记录相应的下载情况;基于下载情况触发启动控制指令,并利用启动控制指令控制池化异构资源启动。本申请在监测到所述应用服务器开始启动时,直接下载应用逻辑存储服务器中预先存储的应用逻辑至池化异构资源,避免应用逻辑从应用逻辑存储服务器中转到应用服务器,然后再到池化异构资源上所造成的时延,而且能够解决应用服务器启动之后,才能启动池化异构资源的问题,从而避免耗费大量的启动时间,提高启动性能。

    一种自然语言处理方法、系统、设备及存储介质

    公开(公告)号:CN115329744B

    公开(公告)日:2023-04-07

    申请号:CN202211237680.X

    申请日:2022-10-11

    Abstract: 本申请公开了一种自然语言处理方法、系统、设备及存储介质,应用于机器学习技术领域,包括:得到训练完毕的第一自然语言处理模型;设定用于决定第一自然语言处理模型的模型参数矩阵中的行、列是否保留的行、列稀疏化参数组并进行训练,通过预测损失进行当前未被稀疏的剩余参数的更新,通过预测损失和稀疏度损失,对各个行、列稀疏化参数组进行更新;当总损失收敛时,得到训练完成的第二自然语言处理模型;基于第二自然语言处理模型进行硬件部署,并在部署完成之后,将待处理文本输入至第二自然语言处理模型,得到自然语言处理结果。应用本申请的方案,可以有效地实现自然语言处理,进行软硬件层面的协同优化,且不会损失精度。

    一种GPGPU资源分配方法、装置、设备及存储介质

    公开(公告)号:CN115599554A

    公开(公告)日:2023-01-13

    申请号:CN202211433682.6

    申请日:2022-11-16

    Abstract: 本发明公开了一种GPGPU资源分配方法、装置、设备及存储介质,应用于计算机技术。该方法包括:对已分配有资源核的用户进行状态检测;在用户为空闲用户的情况下,基于预设规则对用户的资源核进行回收;在用户为忙碌用户的情况下,基于用户的忙碌情况从未分配的各资源核中为用户增补预设数量的资源核;本发明基于用户状态对资源核的分配情况进行动态调节,更好的满足用户需求,提升资源利用率。

    一种自然语言处理方法、系统、设备及存储介质

    公开(公告)号:CN115329744A

    公开(公告)日:2022-11-11

    申请号:CN202211237680.X

    申请日:2022-10-11

    Abstract: 本申请公开了一种自然语言处理方法、系统、设备及存储介质,应用于机器学习技术领域,包括:得到训练完毕的第一自然语言处理模型;设定用于决定第一自然语言处理模型的模型参数矩阵中的行、列是否保留的行、列稀疏化参数组并进行训练,通过预测损失进行当前未被稀疏的剩余参数的更新,通过预测损失和稀疏度损失,对各个行、列稀疏化参数组进行更新;当总损失收敛时,得到训练完成的第二自然语言处理模型;基于第二自然语言处理模型进行硬件部署,并在部署完成之后,将待处理文本输入至第二自然语言处理模型,得到自然语言处理结果。应用本申请的方案,可以有效地实现自然语言处理,进行软硬件层面的协同优化,且不会损失精度。

    一种编译方法、装置、设备及可读存储介质

    公开(公告)号:CN114840217A

    公开(公告)日:2022-08-02

    申请号:CN202210612259.6

    申请日:2022-05-31

    Abstract: 本申请公开了计算机技术领域内的一种编译方法、装置、设备及可读存储介质。在本申请中,分布式系统中的任意节点在接收到目标源文件的编译指令后,先不进行编译,而是在当前节点中确定影响目标源文件编译的节点环境参数,并基于节点环境参数在预设编译结果库中查询目标源文件的编译结果信息,若在预设编译结果库中查到编译结果信息,则基于编译结果信息确定目标源文件的编译文件的存储位置,从存储位置获取编译文件,并在当前节点运行编译文件。本申请可避免节点进行冗长的编译工作,能够提高分布式系统中各节点的编译效率。相应地,本申请提供的一种编译装置、设备及可读存储介质,也同样具有上述技术效果。

Patent Agency Ranking