基于异构众核处理器的卷积计算数据重用方法

    公开(公告)号:CN112559197B

    公开(公告)日:2022-11-15

    申请号:CN201910852525.0

    申请日:2019-09-10

    Abstract: 本发明公开一种基于异构众核处理器的卷积计算数据重用方法,CPU通过数据块A和数据块B完成数据块C的卷积计算,包括以下步骤:S1、根据异构众核处理器的内核数,二维映射成N*N个,将数据块A、数据块B、数据块C划分为N*N块,第(i,j)号内核将第(j,i)块数据从内存读取到自己的片上存储器内,数据块C(i,j)的卷积计算需要数据块A(i,k)和数据块B(k,j),其中k=1,2,……,N;S2、进入循环k,循环次数从1到N,共N次,利用得到的数据块A、数据块B完成数据块C的第K次卷积计算。本发明显著降低卷积计算在异构众核处理器上的内存访存需求,充分发挥众核计算能力,从而实现卷积计算高性能,提升其在异构众核处理器上的计算性能。

    一种低延迟旁路的消息优化方法

    公开(公告)号:CN109117288A

    公开(公告)日:2019-01-01

    申请号:CN201810928707.7

    申请日:2018-08-15

    Abstract: 本发明公开一种低延迟旁路的消息优化方法,该方法采用旁路方式,对于满足一定长度要求的用户消息请求,采用快速旁路方式处理,减少用户函数到底层消息操作的调用层次;同时,不在通信支撑环境中对用户消息数据以及包头进行组包操作,而是将这些信息直接写入网络接口芯片的短快消息通路条目中,减少硬件读取描述符并访问用户数据的传输启动开销。本发明能够充分利用底层硬件的短快消息通路,在降低硬件处理开销的同时,从软件层面尽量减少消息数据的启动和处理开销,有效降低短消息通信延迟。

    多处理器结构的模拟方法及模拟器

    公开(公告)号:CN102467406A

    公开(公告)日:2012-05-23

    申请号:CN201010537156.5

    申请日:2010-11-09

    Abstract: 一种多处理器结构的模拟方法及模拟器,利用多处理器宿主机对多处理器结构目标机的多个处理器的行为进行模拟,包括:创建多个宿主进程,其中,每个宿主进程采用轮转的方式对所分配的目标机处理器执行目标机处理器节拍的行为模拟,并行执行多个宿主进程,每个宿主进程对所分配的目标机处理器的一个目标机处理器节拍的行为模拟后,该宿主进程的节拍数加1;根据每个宿主进程的节拍数及当前的全局时钟值,实现多个进程之间的松散同步,所述当前的全局时钟值为目标机处理器节拍数。本发明的多处理器结构的模拟方法及模拟器提高了并行模拟的速度,有效控制了目标机各个处理器模拟进度的差异,能够保持目标机多处理器结构行为模拟的真实性。

    基于异构众核处理器的卷积计算数据重用方法

    公开(公告)号:CN112559197A

    公开(公告)日:2021-03-26

    申请号:CN201910852525.0

    申请日:2019-09-10

    Abstract: 本发明公开一种基于异构众核处理器的卷积计算数据重用方法,CPU通过数据块A和数据块B完成数据块C的卷积计算,包括以下步骤:S1、根据异构众核处理器的内核数,二维映射成N*N个,将数据块A、数据块B、数据块C划分为N*N块,第(i,j)号内核将第(j,i)块数据从内存读取到自己的片上存储器内,数据块C(i,j)的卷积计算需要数据块A(i,k)和数据块B(k,j),其中k=1,2,……,N;S2、进入循环k,循环次数从1到N,共N次,利用得到的数据块A、数据块B完成数据块C的第K次卷积计算。本发明显著降低卷积计算在异构众核处理器上的内存访存需求,充分发挥众核计算能力,从而实现卷积计算高性能,提升其在异构众核处理器上的计算性能。

    基于序列号机制的消息保序方法

    公开(公告)号:CN112448898A

    公开(公告)日:2021-03-05

    申请号:CN201910799268.9

    申请日:2019-08-28

    Abstract: 本发明公开一种基于序列号机制的消息保序方法,包括以下步骤:S1、每进行一次异步消息发送操作时,发送端将当前的发送序列号打包入包头,并将发送序列号加1;S2、接收端每成功接收一次异步消息,将当前的接收序列号和包头中携带的发送序列号进行比对;S3、成功处理按序到达的消息请求后,将接收端的消息序列号生成器的值加1,并对乱序到达队列内的元素查找是否有匹配当前接收序列号的元素;S4、如果认定为一次异步消息的乱序到达,将该次接收完成的消息缓冲区加入乱序到达队列,待后续消息到达并更新接收序列号后进行处理。本发明既可以有效保证通信通路的并发,也可以有效解决底层互连架构带来的消息序问题,同时序列号生成及匹配对于性能的影响非常小。

    一种动静结合的多策略通信支撑方法

    公开(公告)号:CN109101349A

    公开(公告)日:2018-12-28

    申请号:CN201810928724.0

    申请日:2018-08-15

    Abstract: 本发明公开一种动静结合的多策略通信支撑方法,包括:将全局进程组按照设定的分块大小划分全连接区;初始化过程中,在全连接区内每个进程均建立和其他进程间的通信通路,全连接区之间按照对应进程关系建立通信通路,建立虚拟连接时静态分配发送队列和接收队列资源;初始化结束后,程序执行过程中,当出现跨区域无连接进程间通信时,采用动态转发或本地计算方式传递请求并交换队列信息,建立通信通路。本发明采用静态分区和动态转发相结合的通信通路管理策略,在提升通信支撑环境可扩展性的同时,避免了连接管理线程对用户进程产生的不良影响;分层次的集合通信实现可以有效支撑复杂的集合通信需求,提升了集合通信的可扩展性。

    面向大规模并发通信的优化方法

    公开(公告)号:CN112532539B

    公开(公告)日:2023-03-28

    申请号:CN201910879920.8

    申请日:2019-09-18

    Abstract: 本发明公开一种面向大规模并发通信的优化方法,包括以下步骤:S1、发送方向接收方发起发送请求,设置完成计数器初值;S2、接收方收到来自于发送方的发送请求后,匹配相关接收请求信息,向发送方应答目的地址信息;S3、发送方收到来自于接收方的请求应答后,投递拆分后的前n个传输请求;S4、如果探查到某一个传输请求完成,则将完成计数器的值减1,并判断当前完成计数器的值是否为0,如果为0,向发送方投递完成通知,否则,继续补充后续传输请求;S5、接收方收到来自于接收方的完成通知,置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题,可有效增强并发通信优化手段的灵活性,提升大规模并发通信性能。

    一种低延迟旁路的消息优化方法

    公开(公告)号:CN109117288B

    公开(公告)日:2022-04-12

    申请号:CN201810928707.7

    申请日:2018-08-15

    Abstract: 本发明公开一种低延迟旁路的消息优化方法,该方法采用旁路方式,对于满足一定长度要求的用户消息请求,采用快速旁路方式处理,减少用户函数到底层消息操作的调用层次;同时,不在通信支撑环境中对用户消息数据以及包头进行组包操作,而是将这些信息直接写入网络接口芯片的短消息通路条目中,减少硬件读取描述符并访问用户数据的传输启动开销。本发明能够充分利用底层硬件的短消息通路,在降低硬件处理开销的同时,从软件层面尽量减少消息数据的启动和处理开销,有效降低短消息通信延迟。

    面向大规模并发通信的优化方法

    公开(公告)号:CN112532539A

    公开(公告)日:2021-03-19

    申请号:CN201910879920.8

    申请日:2019-09-18

    Abstract: 本发明公开一种面向大规模并发通信的优化方法,包括以下步骤:S1、发送方向接收方发起发送请求,设置完成计数器初值;S2、接收方收到来自于发送方的发送请求后,匹配相关接收请求信息,向发送方应答目的地址信息;S3、发送方收到来自于接收方的请求应答后,投递拆分后的前n个传输请求;S4、如果探查到某一个传输请求完成,则将完成计数器的值减1,并判断当前完成计数器的值是否为0,如果为0,向发送方投递完成通知,否则,继续补充后续传输请求;S5、接收方收到来自于接收方的完成通知,置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题,可有效增强并发通信优化手段的灵活性,提升大规模并发通信性能。

    底层消息接口模拟方法及模拟装置

    公开(公告)号:CN102446113B

    公开(公告)日:2014-02-26

    申请号:CN201010508866.5

    申请日:2010-10-12

    Abstract: 一种底层消息接口模拟方法,包括:模拟执行目标机的操作系统;监测所述目标机的操作系统代码中的进程切换,并于监测到所述进程切换后触发注释机制,生成底层消息子过程索引表;对目标机指令流中的每一条指令进行识别处理,并于识别出底层消息子过程调用时执行该消息接口的模拟处理,获取消息参数虚地址;将所述消息参数虚地址转换为消息参数物理地址;调用所述底层消息子过程索引表执行消息功能模拟,根据所述消息参数物理地址实现消息的传递。基于上述方法,还提供了一种底层消息接口模拟装置。本发明能够基于全结构并行计算机状态支持多节点消息功能的模拟,简化了模拟方式,提高并行应用程序的模拟效率。

Patent Agency Ranking