一种脉冲星傅立叶域加速搜索流水线并行方法和装置

    公开(公告)号:CN119127514A

    公开(公告)日:2024-12-13

    申请号:CN202411614716.0

    申请日:2024-11-13

    Abstract: 本发明公开了一种脉冲星傅立叶域加速搜索流水线并行方法和装置,包括:将接收的天文数据分配到多个并行进程;每个进程中包括三个串行子线程,利用第一CPU子线程对分配到的天文数据进行预处理,利用GPU子线程读取预处理后的数据并在GPU上执行加速计算得到候选信号数据,利用第二CPU子线程读取候选信号数据并进行后处理和结果汇总,同时利用多个并行进程架构的队列和队列阻塞锁来同步各子线程之间的任务状态;通过监控反馈动态调整处理流程中的进程数量;实时记录任务状态和各进程计算结果并处理异常情况。本发明能够有效提升脉冲双星搜索进程,并支持利用多GPU并行加速,大幅提升从FAST天文数据中搜索该类型天体的速度。

    可重构电路、可重构芯粒间互联的装置及其方法

    公开(公告)号:CN117056279B

    公开(公告)日:2024-01-26

    申请号:CN202311320181.1

    申请日:2023-10-12

    Abstract: 本申请提供一种可重构电路、可重构芯粒间互联的装置及其方法。该可重构电路包括可重构互联模块及控制模块,可重构互联模块用于与一个微凸点组对应连接,微凸点组包括多个微凸点。可重构互联模块包括多个可重构的开关单元。每一个开关单元具有控制端、输入端及输出端,开关单元的控制端连接到控制模块,开关单元的输入端用于接收来自功能模块或测试模块的接口信号,开关单元的输出端用于连接微凸点组中的一个微凸点。控制模块用于接收外部的控制数据,并根据控制数据来控制可重构互联模块中多个开关单元的通断以选择合适的微凸点连通。在开关单元闭合时,与开关单元连接的对应微凸点连通,接口信号可通过开关单元的输入端传递到微凸点。

    一种基于序列生成的异构芯片任务调度方法以及装置

    公开(公告)号:CN116932175B

    公开(公告)日:2024-01-09

    申请号:CN202311208268.X

    申请日:2023-09-19

    Abstract: 本说明书公开了一种基于序列生成的异构芯片任务调度方法以及装置,针对每个待调度任务,确定该待调度任务在各芯片上分别对应的执行时间,再确定各芯片分别对应的空闲时刻,根据各芯片分别对应的空闲时刻、各待调度任务在各芯片上分别对应的执行时间,生成调度序列,以根据调度序列调度各芯片执行各待调度任务。在包含异构芯片的计算集群中存在处于空闲状态的芯片的情况下,尽可能为该处于空闲状态的芯片分配与其匹配的任务,保证了任务执行效率。

    一种任务执行方法、装置、存储介质及电子设备

    公开(公告)号:CN116225669A

    公开(公告)日:2023-06-06

    申请号:CN202310509060.5

    申请日:2023-05-08

    Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备,可以预先确定出所有可以并行执行的算子组合,进而可以在响应于用户发起的任务请求进行任务执行时,确定需要执行该任务对应的各可执行算子与正在执行其他任务的芯片正在执行的其他任务的算子是否有匹配的可以并行执行的算子组合,若有,则可以通过正在执行其他任务的芯片并行执行该任务请求对应的任务,从而可以提升芯片的计算资源的利用率。

    一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897B

    公开(公告)日:2023-03-24

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    芯粒中神经网络推理的模块化调度方法、装置和计算设备

    公开(公告)号:CN115658274A

    公开(公告)日:2023-01-31

    申请号:CN202211425389.5

    申请日:2022-11-14

    Abstract: 本发明公开了一种芯粒中神经网络推理的模块化调度方法、装置和计算设备,包括:获取在芯粒中进行神经网络推理的调度策略搜索空间;获取并依据神经网络的计算图生成算子深度,依据计算图将算子划分为串行组;依据算子间的数据依赖关系、算子深度和串行组,划分计算图得到数据依赖模块和并行数据依赖模块;计算数据依赖模块的数据依赖复杂度,依据数据依赖复杂度、并行数据依赖模块以及芯粒资源总数计算算子的最大可用资源分配数量,作为调度策略迭代搜索的初始约束;依据调度策略搜索空间和初始约束迭代搜索使得计算开销、算子内和算子间数据传输开销、芯粒多级路由产生的拥塞开销之和最小的数据依赖模块调度策略。

    图像数据的压缩方法、装置和可读存储介质

    公开(公告)号:CN116320425A

    公开(公告)日:2023-06-23

    申请号:CN202310183879.7

    申请日:2023-02-23

    Abstract: 本申请提供一种图像数据的压缩方法、装置和可读存储介质。其中,该图像数据的压缩方法,包括获取输入的原始图像的原始矩阵;通过原始图像通道指定压缩的隐空间维度,对初始隐空间特征矩阵进行初始化,得到低维隐特征矩阵;初始化原始图像数据的相关偏置属性;使用所述低维隐特征矩阵及所述相关偏置属性,得到图像数据的重建矩阵;利用所述重建矩阵和所述原始矩阵,更新低维隐特征矩阵及相关偏置属性;及,将更新完成的隐特征矩阵及更新完成的相关偏置属性进行存储,得到所述图像数据的压缩数据。

    基于深度强化学习的多芯粒芯片算子放置策略生成方法

    公开(公告)号:CN115828831B

    公开(公告)日:2023-06-09

    申请号:CN202310110451.X

    申请日:2023-02-14

    Abstract: 本发明公开了一种基于深度强化学习的多芯粒芯片算子放置策略生成方法,包括:获取算子计算图和多芯粒芯片尺寸信息;根据多芯粒芯片尺寸信息生成可选的若干种目标放置芯粒网格尺寸;建立多芯粒芯片算子放置深度学习强化模型,其中多芯粒芯片算子放置深度学习强化模型包括算子运行环境模块和深度Q网络模块,算子运行模块用于根据当前环境网络和输入的动作,计算奖励值,并将环境变换到下一个状态,将奖励值和下一个状态传回深度Q网络模块,深度Q网络模块用于根据当前状态从可选的动作空间中选择价值最高的动作;基于算子运行环境模块对深度Q网络模块进行训练;利用训练好的深度强化学习模型对算子计算图在多芯粒芯片上的运行给出算子放置策略。

    一种面向多芯粒组合芯片的片上网络仿真系统

    公开(公告)号:CN115460128A

    公开(公告)日:2022-12-09

    申请号:CN202211399069.7

    申请日:2022-11-09

    Abstract: 本发明公开了一种面向多芯粒组合芯片的片上网络仿真系统,包括:片上网络生成单元,用于根据多芯粒组合芯片特征生成片上网络的抽象模型;数据路由仿真单元,用于对数据包在片上网络的运行进行仿真并输出数据在片上网络的仿真时间、路由所需的总周期数以及每个数据包的平均延迟。本申请通过在每个芯粒加上片间路由器并与芯粒内部的片内路由器相连,形成异构双层拓扑网络,使之可以仿真不同芯粒间的处理单元交互。对多芯粒芯片设计提供了性能评估,有利于芯片设计初期的探索;可灵活配置多芯粒芯片的各项参数,对不同规模的多芯粒芯片进行仿真。

    面向芯粒的神经网络推理开销估计方法及装置、电子设备

    公开(公告)号:CN115186821A

    公开(公告)日:2022-10-14

    申请号:CN202211108864.6

    申请日:2022-09-13

    Abstract: 本发明公开了面向芯粒的神经网络推理开销估计方法及装置、电子设备,其中面向芯粒的神经网络推理开销估计方法包括神经网络参数和芯粒拓扑结构获取、并行组内开销估计、并行组间网络传输开销估计及神经网络推理开销估计四个步骤。使得推理开销估计适用于神经网络在芯粒上并行调度的实际场景,神经网络推理开销估计能够适用于芯粒这样的拓扑结构,充分考虑芯粒上小芯片单元内外的带宽、小芯片单元内路由转发延迟和小芯片单元外路由转发延迟,使得神经网络在芯粒上的推理开销估计达到较高的精度,从而为神经网络在芯粒上加速推理所需的高性能调度策略奠定良好基础。

Patent Agency Ranking