-
公开(公告)号:CN113377688B
公开(公告)日:2022-10-11
申请号:CN202110519990.X
申请日:2021-05-13
IPC分类号: G06F12/0811 , G06T1/20
摘要: 本发明公开了一种用于GPU的L1高速缓存共享方法,包括步骤:S11判断本地访存请求是否为空,若是执行S21,若否执行S12;S12取出请求访问L1缓存;S13判断是否命中,若是返回数据,若否执行S14;S14判断是否为存储密集型程序,若是,将请求发送至其他SM,执行S15,若否,将请求发送至L2缓存;S15判断是否有缓存数据块需要被替换,若是,发送数据块替换请求至其他SM;S21判断远端访存请求是否为空,若否执行S22;S22取出请求访问L1缓存;S23判断是否命中,若是返回数据,执行S24,若否,将请求发送至L2缓存,执行S24;S24判断远端数据请求是否为空,若否,将需要被替换的数据块存入L1缓存。本发明能够实现运行存储密集型程序使用运行计算密集型程序的SM上的L1高速缓存。
-
公开(公告)号:CN113377688A
公开(公告)日:2021-09-10
申请号:CN202110519990.X
申请日:2021-05-13
IPC分类号: G06F12/0811 , G06T1/20
摘要: 本发明公开了一种用于GPU的L1高速缓存共享方法,包括步骤:S11判断本地访存请求是否为空,若是执行S21,若否执行S12;S12取出请求访问L1缓存;S13判断是否命中,若是返回数据,若否执行S14;S14判断是否为存储密集型程序,若是,将请求发送至其他SM,执行S15,若否,将请求发送至L2缓存;S15判断是否有缓存数据块需要被替换,若是,发送数据块替换请求至其他SM;S21判断远端访存请求是否为空,若否执行S22;S22取出请求访问L1缓存;S23判断是否命中,若是返回数据,执行S24,若否,将请求发送至L2缓存,执行S24;S24判断远端数据请求是否为空,若否,将需要被替换的数据块存入L1缓存。本发明能够实现运行存储密集型程序使用运行计算密集型程序的SM上的L1高速缓存。
-
公开(公告)号:CN117608663A
公开(公告)日:2024-02-27
申请号:CN202311349108.7
申请日:2023-10-18
摘要: 本发明公开了一种面向RISC‑V指令集的多发射紧耦合向量浮点部件设计方法及系统,根据预先确定的向量浮点指令集,设计紧耦合向量浮点部件;根据所设计的紧耦合向量浮点部件,设计向量浮点部件的基本框架;对向量浮点指令集中的指令在所设计的基本框架中,以流水线的方式进行交互运算。通过本发明的方法,实现了一种数据级并行的结构技术,提高了处理器的处理性能,且通过锁步流水技术将向量浮点作为多发射处理器中的一条流水线,并实现与其他流水线之间的有效交互,从而达到紧耦合、高性能的目的。
-
公开(公告)号:CN116841922A
公开(公告)日:2023-10-03
申请号:CN202310687143.3
申请日:2023-06-12
IPC分类号: G06F12/1009 , G06F12/1027 , G06F16/22
摘要: 本发明公开了一种TLB页表项管理方法、装置、设备及存储介质,该TLB页表项管理方法包括以下步骤:建立包含页表项索引与虚拟页号的对应关系的哈希函数,其中,在哈希函数中,TLB中页表项的每一位索引采用虚拟页号的多位异或计算,且对应同一索引位的虚拟页号的多个位数彼此相差页表项索引位数;响应于输入的虚拟地址,基于哈希函数,进行页表项读出、或写入与读出,以完成虚实地址转换。本发明的TLB页表项管理方法、装置、设备及存储介质通过选取虚拟页号不同位进行异或操作来确定虚拟页号对应的页表项索引,进而确定虚拟页号对应的页表项在TLB中的写入与读出位置,能够充分利用TLB的存储空间,并减少比较电路的使用。
-
公开(公告)号:CN116308479A
公开(公告)日:2023-06-23
申请号:CN202310104383.6
申请日:2023-01-30
IPC分类号: G06Q30/0202 , G06Q30/0601 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/048 , G06N3/084
摘要: 本发明公开了一种基于层次型文本交互的商品评分预测方法,包括:确定用户和商品,获取用户和商品的历史评论文本和隐特征向量;获取历史评论文本对应的特征向量;根据特征向量,获取用户初始偏好特征和商品初始属性特征;融合用户的历史评论文本对应的特征向量和商品初始属性特征,获取用户交互偏好特征;融合商品的历史评论文本对应的特征向量和用户初始偏好特征,获取商品交互属性特征;融合用户初始偏好特征和用户交互偏好特征,获取用户偏好特征;融合商品初始属性特征和商品交互属性特征,获取商品属性特征;对用户偏好特征和商品属性特征之间的交互进行建模,获取用户对商品的预测评分。本发明能够提高商品评分预测精度,实现更好推荐效果。
-
公开(公告)号:CN116185900A
公开(公告)日:2023-05-30
申请号:CN202310042695.9
申请日:2023-01-28
IPC分类号: G06F12/0897 , G06F12/0888
摘要: 本发明公开了一种MCM‑GPU末级高速缓存管理方法及MCM‑GPU,该方法包括:在GPU模块中选取部分LLC作为远端LLC,以缓存远端GPU模块的只读存储空间中存储的数据;响应于执行的程序,实时判断是否有流处理器发起访存请求;若有,则判断访存请求是否访问只读存储空间,若不是,则将访存请求发送至当前GPU模块中对应的LLC或对应的远端GPU模块中的LLC,若是,则判断访存请求是否访问本地存储空间;若是,则将访存请求发送至当前GPU模块中对应的LLC;若不是,则将访存请求发送至当前GPU模块中对应的远端LLC;判断是否命中,若否,则将访存请求发送至对应的远端GPU模块中的LLC。本发明能够降低本地访问远端存储空间的次数和开销,减少片上网络冲突,提高MCM‑GPU的性能。
-
公开(公告)号:CN116028220A
公开(公告)日:2023-04-28
申请号:CN202211725446.1
申请日:2022-12-30
IPC分类号: G06F9/50
摘要: 本发明公开了一种用于MCM‑GPU的内存页分配方法,包括:响应于执行的程序,实时判断程序执行的过程中是否发生缺页;若发生缺页,则使用当前设定的内存页分配策略将内存页分配到对应的GPU模块的内存空间;判断当前内存页在不同GPU模块的内存空间的分布是否均衡;若当前内存页在不同GPU模块的内存空间的分布均衡,则使用first‑touch内存页分配策略作为内存页分配策略进行下一个内存页的分配,否则使用round‑robin内存页分配策略作为内存页分配策略进行下一个内存页的分配。本发明能够将内存页尽可能地分配在发起访存请求的GPU模块的内存空间,有效地避免访问远端内存的开销和延迟;同时,能够将内存页尽可能地平均分配到MCM‑GPU中不同GPU模块的内存空间,减少访问冲突。
-
公开(公告)号:CN116881192A
公开(公告)日:2023-10-13
申请号:CN202310660072.8
申请日:2023-06-06
IPC分类号: G06F15/78
摘要: 本发明公开了一种用于GPU的cluster架构及其内部一级缓存管理方法,cluster架构包括:流处理器,包括多个,多个流处理器与交叉开关连接;交叉开关,具有多个输入端口和多个输出端口,多个输入端口分别与多个流处理器连接,多个输出端口分别与多个流处理器和GPU的片上互连网络连接,用于进行多个流处理器之间以及多个流处理器与片上互连网络之间的通信;L1索引路由模块,设置在交叉开关中,用于根据交叉开关接收到的流处理器发送的访存请求的地址计算对应的一级缓存的索引,并将访存请求通过交叉开关发送至包含有对应一级缓存的流处理器中。本发明能够实现cluster架构内部的各个流处理器的一级缓存共享,充分利用GPU中的一级缓存资源,提高流处理器和GPU的性能。
-
公开(公告)号:CN116257467A
公开(公告)日:2023-06-13
申请号:CN202211725803.4
申请日:2022-12-30
IPC分类号: G06F12/084 , G06F12/0842 , G06F15/78 , G06F15/16 , G06F9/445
摘要: 本发明公开了一种MCM‑GPU自适应末级高速缓存结构,设置于GPU模块中,包括:Tag Array和Date Array,Data Array用于储存数据,Tag Array用于查看地址对应的数据是否在缓存中,还包括:本地访存队列,用于存储当前GPU模块的访存请求;远端访存队列,用于存储其他GPU模块的访存请求;LLC架构改变标记位寄存器,用于存储指示当前的末级高速缓存的架构组织方式是否需要改变的LLC架构改变标记位;LLC架构标记位寄存器,用于存储指示将当前的末级高速缓存切换为私有末级高速缓存设计或共享末级高速缓存设计的LLC架构标记位。本发明能够支持共享末级高速缓存和私有末级高速缓存的动态切换,能够根据程序运行时的配置自适应地选择末级高速缓存架构组织方式,满足程序访存需求,提高MCM‑GPU的性能。
-
公开(公告)号:CN116957902A
公开(公告)日:2023-10-27
申请号:CN202310848547.6
申请日:2023-07-12
摘要: 本发明公开了一种用于GPU的NoC仲裁方法,用于GPU,包括:响应于程序的执行,在流处理器发送到片上互连网络的访存请求中编码当前流处理器中到达barrier的线程束数目;根据访存请求对应的输出端口,将片上互连网络接收的访存请求划分为多组以使每组中的访存请求对应的输出端口相同;针对每一组访存请求,对一组访存请求中的所有访存请求进行轮询仲裁,选择出优先级最高的访存请求发送至对应的输出端口,其中,访存请求中编码的到达barrier的线程束数目越大,访存请求的优先级越高。本发明的用于GPU的NoC仲裁方法能够保证需要快速达到barrier的线程束发出的访存请求得到及时的响应,使得线程束快速通过barrier,加快线程束的执行速度,提高GPU的性能。
-
-
-
-
-
-
-
-
-