一种面向多核集群的SMO并行处理方法

    公开(公告)号:CN103713885A

    公开(公告)日:2014-04-09

    申请号:CN201310741338.8

    申请日:2013-12-27

    Abstract: 本发明涉及一种面向多核集群的SMO并行处理方法。包括:根据全局参数给本地问题参数赋初始值,并对算法参数赋初始值;根据本地问题参数的初始值,计算本地问题参数的本地第一界和本地第二界;根据本地第一界和本地第二界,获取全局第一界和全局第二界;在全局第一界和全局第二界之差不小于预设的精度时,迭代计算全局第一界对应的第一乘子以及全局第二界对应的第二乘子;其中,每次迭代后多线程更新本地问题参数;在迭代达到预设的迭代次数时,根据本地样本乘子计算待分类数据的本地解,根据本地解获取全局解,完成数据分类。本发明解决了传统的数据分类成本高、误码率高以及反应速度慢的问题。

    一种基于MCMC的并行分类方法

    公开(公告)号:CN102999477A

    公开(公告)日:2013-03-27

    申请号:CN201210563427.3

    申请日:2012-12-21

    Abstract: 本发明公开了一种基于MCMC的并行分类方法,包括:根据初始状态计算似然估计;根据似然估计计算出参数的后验概率;根据后验概率进行MCMC模拟运算,以当前状态为基础,产生新状态;根据新状态计算接受概率,并产生第一随机数,当第一随机数小于接受概率时,则下一时刻的状态为新状态,否则保持当前状态不变;产生同一列处理器中准备进行交换的马尔科夫链的标号;当处理器中的马尔科夫链参与了交换,则计算出交换概率,并产生第二随机数,判断交换概率和第二随机数的比较结果,当第二随机数小于交换概率时,则交换处理中的马尔科夫链的加热参数,否则交换不发生。本发明缩短了MC3算法和MCMC算法的执行时间,并减小了通讯开销。

    稀疏矩阵存储方法及向量乘方法

    公开(公告)号:CN118484135B

    公开(公告)日:2025-04-11

    申请号:CN202410377055.8

    申请日:2024-03-29

    Abstract: 本申请公开了一种稀疏矩阵存储方法及向量乘方法。该方法包括:根据预先确定的长度与宽度,从稀疏矩阵中获得多个矩阵块;根据每个矩阵块中非零元素的数量,从多个矩阵块中获得多个储存类;对多个储存类中具有三个以下非零元素的第i个储存类,根据非零元素于稀疏矩阵中的行坐标及列坐标,获得第i个非零元素数组;根据非零元素于稀疏矩阵中的列坐标、行坐标,获得第i个储存类的行索引数组、第一列索引数组;根据非零元素于第i个非零元素数组中的坐标,获得第i个储存类的量索引数组;根据以上索引数组及非零元素数组,储存第i个储存类;对于多个储存类中具有三个或三个以上非零元素的第t个储存类,采用压缩稀疏行CSR格式,储存第t个储存类。

    一种用于GPU的强化学习训练框架和方法

    公开(公告)号:CN119578500A

    公开(公告)日:2025-03-07

    申请号:CN202411636379.5

    申请日:2024-11-15

    Abstract: 本申请提供一种在单GPU上实现的强化学习训练框架,包括配置器、执行器、学习器、模型池和缓冲区,执行器和学习器运行在GPU上,模型池和缓冲区设置于GPU的显存,配置器运行在CPU上;配置器确定执行器的运行参数和学习器的运行参数,将执行器的运行参数和学习器的运行参数下发到GPU,执行器从模型池中提取模型,将利用模型得到的经验数据存放到缓冲区中;学习器从缓冲区中提取经验数据,根据经验数据生成的模型,依据学习器的运行参数,将生成的模型放置到模型池中的空位置。本发明中利用多流机制,高效地利用单块GPU进行强化学习训练,通过控制不同训练模块的执行,提高资源利用率,提升GPU上强化学习训练的性能。

    一种基于有损压缩的大规模并行通信优化方法

    公开(公告)号:CN119376977A

    公开(公告)日:2025-01-28

    申请号:CN202411436342.8

    申请日:2024-10-15

    Abstract: 本公开涉及深度学习大规模模型并行训练通信优化,具体涉及一种基于有损压缩的大规模并行通信优化方法,包括:将原始数据划分为N×N个块数据;各个进程非阻塞接收来自上一个进程的块数据,同时基于SZX算法压缩本进程上一轮接收到的块数据,再非阻塞发送所述压缩后的块数据至下一个进程,同时解压缩接收到的块数据并进行规约操作,直至每个进程持有规约子块结果;每个进程以环形的方式并行通信,直至每个进程都持有所有进程压缩后的规约子块结果;各个进程开始对接收到的所有压缩后的规约子块结果进行解压缩并存储数据。该方法降低了大模型张量并行训练中的通信开销,实现发送和接收与压缩和解压缩时间开销的相互掩蔽,节约了时间成本。

    一种用于DFPT分析的多级GPU负载均衡方法及系统

    公开(公告)号:CN118152107A

    公开(公告)日:2024-06-07

    申请号:CN202311676312.X

    申请日:2023-12-08

    Abstract: 本发明公开了一种用于DFPT分析的多级GPU负载均衡方法及系统,属于计算机高性能计算数值模拟领域。该方法首先基于密度泛函微扰分析的数据集,通过预运行确定批次负载。其次根据批次负载进行一级负载划分:进行卡间负载均衡划分,实现GPU卡间负载均衡。最后进行二级负载划分:进行卡内负载均衡划分,实现GPU卡内负载均衡。该系统包括负载确定模块、一级负载划分模块和二级负载划分模块。本发明改善了现有负载均衡策略由于没有针对性的优化,难以应对GPU加速后的密度泛函微扰分析的问题,提高了资源利用率以及运算效率。

    一种针对物理神经网络的改进网络的调优方法和装置

    公开(公告)号:CN116562333A

    公开(公告)日:2023-08-08

    申请号:CN202310332005.3

    申请日:2023-03-30

    Abstract: 本发明提供一种针对物理神经网络的改进网络的调优方法和装置。该方法包括:为所述基础的物理神经网络添加输入放缩层,输出放缩层和特征层,构建改进的物理神经网络;使用若干观测点和所述改进的物理神经网络作差作为第一损失函数对所述改进的物理神经网络进行第一训练;将所述微分方程组的残差项加入到所述第一损失函数得到第二损失函数进行第二训练。实现了使用物理神经网络求解强刚性的速率理论方程组的可行性,添加观测点作为有监督训练项并进行预训练,确定模型的优化方向,使模型训练具有更高的训练效率。采用均衡各残差权重的优化方法,让改进的网络具有更好的正则化效果。

    一种基于时间和空间注意力的短期时序预测方法及系统

    公开(公告)号:CN115081586A

    公开(公告)日:2022-09-20

    申请号:CN202210547025.8

    申请日:2022-05-19

    Abstract: 本申请提供一种基于时间和空间注意力的短期时序预测方法及系统,其中,方法包括,获取历史时间步长的预测目标数据和相关外源特征的数据作为第一、第二序列,历史时间步长内与预测目标具有空间相关性的第三序列,未来时间步长内对相关外源特征进行科学预测得的第四序列;对第四序列在第一、第二序列中提取时间相似趋势得到第五序列;对第五序列提取周期性并进行映射生成目标预测数据;提取第三序列中的空间相关性嵌入到目标预测数据中得到未来时间步长内的时空相关性编码数据;对第一序列、第二序列提取时间相关性并嵌入到时空相关性编码数据得到短期时序预测数据。本发明实现了对预测数据的时间、空间关联,提高了预测数据的准确性。

    一种基于分布式技术的蛋白质结构推理方法

    公开(公告)号:CN115034393A

    公开(公告)日:2022-09-09

    申请号:CN202210699090.2

    申请日:2022-06-20

    Abstract: 本发明涉及一种基于分布式技术的蛋白质结构推理方法,方法包括:获取蛋白质结构推理所需要的数据集;在AlphaFold2的Data Pipeline模块中,使用分布式计算流对所述数据集进行并行搜索,得到多序列比对MSA表征和模板表征;在AlphaFold2的Evoformer模块和Structure Module模块中,以所述MSA表征和模板表征作为输入,使用并行计算对至少两组不同配置的模型并行迭代学习,生成蛋白质三维结构,在最终生成的模型中选择置信度最高的模型作为输出模型;使用Amber relaxation对所述蛋白质三维结构进行弛豫操作,得到最终稳定的蛋白质三维结构,其中,使用GPU版本的openMM对所述Amber relaxation进行计算。

    一种基于多级分解和融合的时序预测系统及方法

    公开(公告)号:CN114817773A

    公开(公告)日:2022-07-29

    申请号:CN202210512772.8

    申请日:2022-05-11

    Abstract: 本发明提供一种基于多级分解和融合的时序预测系统及方法,该系统基于Transformer的神经网络,遵循编码器‑解码器结构,所述编码器包含多个相同的编码器块,所述解码器包含多个相同的解码器块。依据预测任务设置初始序列,编码器的每一个编码器块将得到的初始编码序列进行两次混合时序分解和两次交叉融合,得到季节信息经过两次增强的编码序列。解码器的每一个解码器块将得到的初始解码序列进行三次混合时序分解和一次交叉融合,得到季节信息经过再一次增强的解码序列,本申请通过在编码器和解码器内部进行多级的混合时序分解与交叉融合策略,可以增强系统模型学习时序特征的能力,有效提升模型进行时序预测任务的性能。

Patent Agency Ranking