一种面向多芯粒组合芯片的片上网络仿真系统

    公开(公告)号:CN115460128B

    公开(公告)日:2023-07-07

    申请号:CN202211399069.7

    申请日:2022-11-09

    Abstract: 本发明公开了一种面向多芯粒组合芯片的片上网络仿真系统,包括:片上网络生成单元,用于根据多芯粒组合芯片特征生成片上网络的抽象模型;数据路由仿真单元,用于对数据包在片上网络的运行进行仿真并输出数据在片上网络的仿真时间、路由所需的总周期数以及每个数据包的平均延迟。本申请通过在每个芯粒加上片间路由器并与芯粒内部的片内路由器相连,形成异构双层拓扑网络,使之可以仿真不同芯粒间的处理单元交互。对多芯粒芯片设计提供了性能评估,有利于芯片设计初期的探索;可灵活配置多芯粒芯片的各项参数,对不同规模的多芯粒芯片进行仿真。

    芯粒中神经网络推理的模块化调度方法、装置和计算设备

    公开(公告)号:CN115658274B

    公开(公告)日:2023-06-06

    申请号:CN202211425389.5

    申请日:2022-11-14

    Abstract: 本发明公开了一种芯粒中神经网络推理的模块化调度方法、装置和计算设备,包括:获取在芯粒中进行神经网络推理的调度策略搜索空间;获取并依据神经网络的计算图生成算子深度,依据计算图将算子划分为串行组;依据算子间的数据依赖关系、算子深度和串行组,划分计算图得到数据依赖模块和并行数据依赖模块;计算数据依赖模块的数据依赖复杂度,依据数据依赖复杂度、并行数据依赖模块以及芯粒资源总数计算算子的最大可用资源分配数量,作为调度策略迭代搜索的初始约束;依据调度策略搜索空间和初始约束迭代搜索使得计算开销、算子内和算子间数据传输开销、芯粒多级路由产生的拥塞开销之和最小的数据依赖模块调度策略。

    一种芯粒算法调度方法、系统、电子设备及存储介质

    公开(公告)号:CN115860081B

    公开(公告)日:2023-05-26

    申请号:CN202310179898.2

    申请日:2023-03-01

    Abstract: 本发明涉及一种芯粒算法调度方法,包括:获取待调度的神经网络算法计算图;获取芯粒的拓扑结构,并基于拓扑结构生成芯粒资源列表;对神经网络算法计算图进行图优化;对计算图划分并行组;对计算图进行活跃性分析;生成计算图中的每个算子的策略和对应的开销;生成整数线性规划的优化变量;设定整数线性规划的求解目标;设定整数线性规划的约束条件;求解整数线性规划问题;将求解整数线性规划问题得到的解作为计算图在芯粒上的调度方法。与现有技术相比,本发明基于整数线性规划技术,将算法调度空间搜索问题转换成整数线性规划求解问题,通过设置多种求解约束缩小策略探索空间,能够在很短的时间内得到神经网络算法在芯粒上最优的调度方案。

    一种基于DRAM存内计算的碱基序列过滤方法与装置

    公开(公告)号:CN115409174B

    公开(公告)日:2023-03-31

    申请号:CN202211354686.5

    申请日:2022-11-01

    Abstract: 本发明公开一种基于DRAM存内计算的碱基序列过滤方法与装置,该方法为:步骤一,根据DRAM的存储阵列的列宽和所要筛选目标碱基序列的起点地址,筛选出目标碱基序列后进行重新整理组合;步骤二,对重新整理组合后的目标碱基序列分别进行碱基为A腺嘌呤、G鸟嘌呤、C胞嘧啶、T胸腺嘧啶的标记并获取到对应碱基的标记行;步骤三,对标记行数据进行移位后统计标记行中位置值为1的个数,获得对应碱基的统计结果;步骤四,利用参考碱基序列的统计结果与所述目标碱基序列的统计结果进行对比,过滤所筛选的目标碱基序列。本发明将位置匹配筛选放置在内存子阵列中进行,减少了大量数据在cpu与内存之间的搬移,成倍提升了计算效率,降低了功耗。

    资源分配方法、装置、系统和电子装置

    公开(公告)号:CN115860378A

    公开(公告)日:2023-03-28

    申请号:CN202211500037.1

    申请日:2022-11-28

    Abstract: 本申请涉及一种资源分配方法、装置、系统和电子装置,其中,该方法包括:获取待分配资源,以及待分配资源对应的初始权值矩阵,并根据初始权值矩阵以及预设的权值筛选范围生成初始优匹配点集合;针对优匹配点集合进行循环搜索处理,检测是否存在与初始权值矩阵对应的权值更新结果;若未检测到权值更新结果,获取初始优匹配点集合对应的匹配点数据;若检测到权值更新结果,根据权值更新结果和初始权值矩阵生成目标优匹配点集合,并获取目标优匹配点集合对应的匹配点数据;基于匹配点数据生成目标资源分配结果。通过本申请,解决了资源分配方法的效率低的问题,实现了高效、准确的资源分配方法。

    基于深度强化学习的多芯粒芯片算子放置策略生成方法

    公开(公告)号:CN115828831A

    公开(公告)日:2023-03-21

    申请号:CN202310110451.X

    申请日:2023-02-14

    Abstract: 本发明公开了一种基于深度强化学习的多芯粒芯片算子放置策略生成方法,包括:获取算子计算图和多芯粒芯片尺寸信息;根据多芯粒芯片尺寸信息生成可选的若干种目标放置芯粒网格尺寸;建立多芯粒芯片算子放置深度学习强化模型,其中多芯粒芯片算子放置深度学习强化模型包括算子运行环境模块和深度Q网络模块,算子运行模块用于根据当前环境网络和输入的动作,计算奖励值,并将环境变换到下一个状态,将奖励值和下一个状态传回深度Q网络模块,深度Q网络模块用于根据当前状态从可选的动作空间中选择价值最高的动作;基于算子运行环境模块对深度Q网络模块进行训练;利用训练好的深度强化学习模型对算子计算图在多芯粒芯片上的运行给出算子放置策略。

    一种加速分布式机器学习梯度汇聚的方法和装置

    公开(公告)号:CN112862111B

    公开(公告)日:2021-08-24

    申请号:CN202110450988.1

    申请日:2021-04-26

    Abstract: 本发明涉及分布式计算系统领域,具体涉及一种加速分布式机器学习梯度汇聚的方法和装置,该装置包括:包括梯度汇聚器和与梯度汇聚器连接的工作节点,所述工作节点用于提供梯度数据至梯度汇聚器和接收梯度汇聚器的返还数据;所述梯度汇聚器,包括:输入接口和输入队列模块、接收仲裁模块、解析查找模块、输出队列模块、聚合模块、存储器、输出接口模块和配置接口模块,其中的聚合模块包括:控制模块、解析模块、梯度数据块信息表、梯度数据块缓存器、计算模块和网络组包输出模块。本发明支持大型机器学习模型的训练,存储器可以存储大量梯度数据,同时所需要的缓存空间可以很小,降低了系统缓存的要求,提高了系统整体性能。

    一种基于混合存储的存内计算的方法与装置

    公开(公告)号:CN112015673B

    公开(公告)日:2021-03-16

    申请号:CN202011137494.X

    申请日:2020-10-22

    Abstract: 本发明涉及计算机内存计算领域,具体涉及一种基于混合存储的存内计算方法与装置,该方法包括:首先通过混合存储区将数据进行混合存储,然后利用数据转存区通过字线驱动器和控制器对某一指定行的数据进行移位操作,最后基于混合存储和移位操作进行数据的乘法计算。本发明结合非易失存储与内存计算,一方面计算数据以纳秒级的速度从非易失器件中获得,特别是对于深度神经网络推理这种场景,可将模型参数事先存放于非易失存储区,计算时能减少了数据访问的时间,提高了系统性能;另一方面通过改进电路操作流程,减少了不必要的数据搬移时间,使得移位时间也能缩短至纳秒级别,提升了对于乘法计算这种有大量移位操作的计算效率,提高了系统性能。

    一种联邦学习模型训练方法、装置及联邦学习系统

    公开(公告)号:CN112232528B

    公开(公告)日:2021-03-09

    申请号:CN202011473442.X

    申请日:2020-12-15

    Abstract: 本发明公开了一种联邦学习模型训练方法、装置及联邦学习系统,边缘计算服务器和端设备接收云端联邦学习子系统形成的全局机器学习模型信息;一个边缘计算服务器与一个以上的端设备利用网络局部性的优势形成区域,端设备依靠本地数据并采用截断的方式完成模型本地训练,边缘计算服务器负责所辖区域内端设备的多轮更新并向云端联邦学习子系统发送更新后的模型信息;边缘计算服务器也采用截断的方式完成模型本地训练,云端联邦学习子系统负责多个边缘计算服务器的梯度更新;在训练到达收敛期,分别对边缘计算服务器所辖区域内端设备和云端联邦学习子系统负责的多个边缘计算服务器实施截断节点的补偿,形成全局机器学习模型信息。

    一种自适应层级的图像切分识别方法、装置及系统

    公开(公告)号:CN111738236B

    公开(公告)日:2020-11-20

    申请号:CN202010817355.5

    申请日:2020-08-14

    Abstract: 本发明公开了一种自适应层级的图像切分识别方法、装置及系统,该方法包括:获取高清视频中某一帧的原始图像;对所述原始图像,进行图像切分,得到若干有像素重叠的图像切片;对子图像切片进行迭代切分并识别;最终对所有识别结果进行选择得到最终图像的识别结果。本发明解决了现有对高清图像物体识别存在的速度慢、小物体检出率低的问题,做到了高清图像中物体识别速度快、检出率高的效果。

Patent Agency Ranking