-
公开(公告)号:CN117808083B
公开(公告)日:2024-05-03
申请号:CN202410230106.4
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/098 , G06N3/082 , G06N3/0495
Abstract: 本发明涉及机器学习技术领域,具体公开了一种分布式训练通信方法、装置、系统、设备及存储介质,通过根据分布式训练任务的模型精度损失函数,构建以满足梯度数据的期望稀疏度为约束条件、以模型精度损失最小化为优化目标的数据稀疏化目标函数;基于分布式训练任务的迭代计算得到的节点梯度数据和分布式训练任务的模型网络求解数据稀疏化目标函数,得到梯度数据稀疏化位置信息,从而在计算节点传输节点梯度数据时根据梯度数据稀疏化位置信息进行梯度数据稀疏化传输,使梯度数据稀疏化位置信息的生成次数小于分布式训练任务的迭代计算次数,实现了在分布式训练过程中自适应梯度数据稀疏化处理,兼具提高训练效率和保证模型精度的效果。
-
公开(公告)号:CN117808083A
公开(公告)日:2024-04-02
申请号:CN202410230106.4
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/098 , G06N3/082 , G06N3/0495
Abstract: 本发明涉及机器学习技术领域,具体公开了一种分布式训练通信方法、装置、系统、设备及存储介质,通过根据分布式训练任务的模型精度损失函数,构建以满足梯度数据的期望稀疏度为约束条件、以模型精度损失最小化为优化目标的数据稀疏化目标函数;基于分布式训练任务的迭代计算得到的节点梯度数据和分布式训练任务的模型网络求解数据稀疏化目标函数,得到梯度数据稀疏化位置信息,从而在计算节点传输节点梯度数据时根据梯度数据稀疏化位置信息进行梯度数据稀疏化传输,使梯度数据稀疏化位置信息的生成次数小于分布式训练任务的迭代计算次数,实现了在分布式训练过程中自适应梯度数据稀疏化处理,兼具提高训练效率和保证模型精度的效果。
-
公开(公告)号:CN117807000A
公开(公告)日:2024-04-02
申请号:CN202410230114.9
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F13/16
Abstract: 本发明公开了一种通道总线仲裁电路、加速装置、方法、系统、装置及介质,涉及数据处理领域,用于解决多个通道总线对待访问存储器进行访问时浪费时间周期的问题。该方案为各通道总线设置了优先级,控制电路按照预设通道优先级的顺序将各通道总线传输的访问请求通过第一多路复用器存储至第一内存电路,待访问存储器按照存储顺序依次处理访问请求,对多个通道总线发送的访问请求进行有效的协调和管理,可确保各访问请求均被处理,避免访问的混乱和冲突,避免在切换通道时导致的时钟周期浪费问题,减少待访问存储器的等待时间,有效利用待访问存储器的带宽,此外使用硬件电路来实现相比于软件逻辑而言还可以降低信号传输的延迟。
-
公开(公告)号:CN113992588B
公开(公告)日:2024-02-09
申请号:CN202111226345.5
申请日:2021-10-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L47/12
Abstract: 本申请公开了一种数据传输方法、装置、电子设备及可读存储介质。其中,方法包括当检测到网络拥塞时,根据每个拥塞节点的子节点和母节点的网络状态信息确定相应拥塞路径对应的拥塞时长估计值;根据每条拥塞路径对应的拥塞时长估计值确定各拥塞节点的最大拥塞疏通时间估计值;最大拥塞疏通时间估计值作为上游节点的超时时间;对每个拥塞节点,将携带最大拥塞疏通时间估计值的PAUSE帧发送给相对应的上游节点;若网络提前完成缓存发送操作,向相应上游节点发送网络恢复请求;若网络发生死锁,则通过超时处理触发网络疏通操作,本申请可有效提高数据传输效率。
-
公开(公告)号:CN113849238B
公开(公告)日:2024-02-09
申请号:CN202111149416.6
申请日:2021-09-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/4401 , G06F9/50
Abstract: 本申请公开了一种数据通信方法、装置、电子设备及可读存储介质。其中,方法包括将用户态的多个用户线程同时分别拷贝至内核态对应的缓存区中,并为各用户线程分配相应的线程标识信息。对每个用户线程,将基于当前用户线程对应的缓存区和线程标识信息所生成FPGA数据包传输至FPGA,并通知内核线程,以使内核线程对接收到的目标FPGA数据包和当前用户线程进行线程一致性校验;若校验成功,则内核线程向当前用户线程发送唤醒指令,以使当前用户线程将内核态数据拷贝至用户态缓存区,从而可有效解决高并发下多个线程同时与FPGA通信所导致的惊群现象。
-
公开(公告)号:CN114998379A
公开(公告)日:2022-09-02
申请号:CN202210725389.0
申请日:2022-06-24
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T7/181 , G06T7/13 , G06V10/25 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/08 , G06N3/04
Abstract: 本申请公开了一种建筑物矢量轮廓图绘制方法、装置、设备及介质,涉及人工智能与深度神经网络领域,包括:获取建筑物图像,并对所述建筑物图像进行图像处理,以得到所述建筑物图像的特征图;对所述特征图进行初始化操作,以得到初始化特征图,并对所述特征图进行边缘检测处理,以得到处理后特征图;调用第一损失函数对所述初始化特征图和所述处理后特征图进行第一次训练,以得到概率图,调用第二损失函数并利用预先建立的循环神经网络,对所述概率图进行第二次训练,以得到所述建筑物图像的矢量轮廓图。通过本申请的上述技术方案,能够有效提升增加建筑物矢量轮廓图绘制的准确性,提高建筑物矢量轮廓图绘制的效率。
-
公开(公告)号:CN114328153A
公开(公告)日:2022-04-12
申请号:CN202111608186.5
申请日:2021-12-23
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F11/34
Abstract: 本发明公开了一种RDMA性能测试系统、方法、装置及介质,包括FPGA,加速单元,RDMA处理单元,加速单元设置于FPGA中,用于在FPGA间需要进行数据交互时发起数据交互请求,RDMA处理单元设置于FPGA中,并与加速单元连接,用于在加速单元发起数据交互请求后实现FPGA间的数据交互,FPGA包括计时器,计时器与RDMA处理单元连接,用于FPGA间的进行数据交互时计时以确定RDMA性能。由此可见,本发明提供的技术方案,使用FPGA来实现RDMA功能,由于FPGA的处理节拍固定,进而使得内部数据读写延时固定,且FPGA的计时器精度高,进而提高了RDMA性能测试结果的稳定性及准确性。
-
公开(公告)号:CN119167068B
公开(公告)日:2025-04-25
申请号:CN202411667150.8
申请日:2024-11-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/213 , G06F18/25 , G06F16/31 , G06F16/38 , G06F16/51 , G06F16/583
Abstract: 本发明涉及数据处理技术领域,公开了一种多模态数据处理方法、设备、介质及计算机程序产品,该方法包括:对视觉数据和文本数据进行特征提取,将提取的视觉模态特征写入主机扩展内存中,并将提取的文本模态特征写入设备内存中;对视觉模态特征进行切分,得到视觉特征片段并写入设备内存中;将文本模态特征与视觉特征片段进行融合,并将融合后的特征经切分和相应计算后输出的中间结果写入片上静态内存中;将最终得到的目的结果写入设备内存中。这样可以减少显存占用,保障特征对齐的正确性,避免多模态特征文本注意力的缺失。
-
公开(公告)号:CN119046211A
公开(公告)日:2024-11-29
申请号:CN202411534503.7
申请日:2024-10-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F13/28
Abstract: 本发明公开了一种数据处理系统、方法及计算机系统,涉及计算机系统领域,为解决访问扩展内存的访问路径长、访问延时大的问题,该数据处理系统包括处理板和内存扩展板,处理板上设有处理核心、第一控制器,内存扩展板上设有存储组件和控制组件。本发明能够使处理板可以对内存扩展板上的存储组件直接进行访问,而无需通过服务器主机进行内存拷贝,降低了处理板访问扩展内存时和服务器主机之间的耦合度,在有效扩展了处理板的内存的同时,缩短了处理板对扩展内存的访问路径,降低了访问延时,从而减小了预训练模型训练过程中的通信瓶颈。
-
公开(公告)号:CN118982723A
公开(公告)日:2024-11-19
申请号:CN202411471758.3
申请日:2024-10-22
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及人工智能技术领域,具体公开了一种图像处理方法、数据处理方法、设备、介质及产品,通过在利用图像处理模型将输入图像进行向量化处理并进行张量计算时,对张量算子进行规模扩充至各维度的元素数量均为z个正整数的乘积形式,再进行增维处理并使各维度的增维数量相同,再进行张量列分解处理,在利用张量列分解实现将张量算子分解以及降低算子参数量的同时,适应于计算设备执行模型计算时进行张量列分解为合适形式,从而在计算设备执行图像处理任务时能够显著降低张量计算的复杂度及参数量,缓解计算压力和存储压力,且能够将一次张量计算转换为多组小规模张量算子的并行计算,在计算资源允许的情况下能够提升图像处理任务的性能。
-
-
-
-
-
-
-
-
-