-
公开(公告)号:CN102640132B
公开(公告)日:2015-08-05
申请号:CN201080053930.3
申请日:2010-09-28
Applicant: 辉达公司
Inventor: 理查德·克雷格·约翰逊 , 约翰·R·尼科尔斯 , 罗伯特·史蒂文·格兰维尔
CPC classification number: G06F9/3851 , G06F9/30021 , G06F9/30029 , G06F9/3004 , G06F9/30072 , G06F9/30087 , G06F9/30094 , G06F9/3012 , G06F9/3013 , G06F9/3885 , G06F9/3887 , G06F9/3889
Abstract: 本文提供的发明阐述了用于在执行多线程或数据通道的并行处理器中的指令的断言执行机制。执行在并行处理器中的每个线程或数据通道均与一个断言寄存器相关联,该断言寄存器存储一组1位断言。可以使用不同类型的断言设置指令来设置这些断言中的每一个,其中每个断言设置指令都指定一个或多个源操作数,针对该源操作数将执行至少一个操作,并且一个或多个目标断言用于存储该操作的结果。可以通过断言来保护指令,该断言可以影响是否对特定线程执行指令,或者如何对特定线程或数据通道执行指令。
-
公开(公告)号:CN102640131A
公开(公告)日:2012-08-15
申请号:CN201080053460.0
申请日:2010-09-24
Applicant: 辉达公司
Inventor: 约翰·R·尼科尔斯 , 理查德·克雷格·约翰逊 , 罗伯特·史蒂文·格兰维尔 , 吉列尔莫·胡安·罗扎斯
IPC: G06F15/00
CPC classification number: G06F9/30072 , G06F9/3851 , G06F9/3887
Abstract: 本发明的一个实施例提出了一种用于管理执行多线程处理器的线程组中的线程发散的机制。当执行一致分支指令时,使线程组中所有激活线程都仅在该线程组中每个线程都同意取用分支时进行分支转移。以这种方式,可以消除线程发散。当执行分支任意指令时,使线程组中所有激活线程都在该线程组中的至少一个线程同意取用分支时进行分支转移。
-
公开(公告)号:CN102640131B
公开(公告)日:2015-12-16
申请号:CN201080053460.0
申请日:2010-09-24
Applicant: 辉达公司
Inventor: 约翰·R·尼科尔斯 , 理查德·克雷格·约翰逊 , 罗伯特·史蒂文·格兰维尔 , 吉列尔莫·胡安·罗扎斯
IPC: G06F15/00
CPC classification number: G06F9/30072 , G06F9/3851 , G06F9/3887
Abstract: 本发明的一个实施例提出了一种用于管理执行多线程处理器的线程组中的线程发散的机制。当执行一致分支指令时,使线程组中所有激活线程都仅在该线程组中每个线程都同意取用分支时进行分支转移。以这种方式,可以消除线程发散。当执行分支任意指令时,使线程组中所有激活线程都在该线程组中的至少一个线程同意取用分支时进行分支转移。
-
公开(公告)号:CN102648449A
公开(公告)日:2012-08-22
申请号:CN201080054127.1
申请日:2010-09-28
Applicant: 辉达公司
Inventor: 米歇尔·C·施巴诺 , 杰克·夏高特 , 布雷特·W·库恩 , 史蒂文·J·海因里希 , 阿拉宾得·卡拉恩 , 约翰·R·尼科尔斯 , 丹尼尔·萨利纳斯 , 明·休 , 汤米·索恩 , 尼古拉斯·王
IPC: G06F7/38
CPC classification number: G06F9/327 , G06F9/3851 , G06F9/3861
Abstract: 将陷阱处理器架构结合到诸如GPU的并行处理子系统中。该陷阱处理器架构通过强制实行以下特性来为并发执行线程最小化设计复杂度和验证工作:与流多处理器相关联的所有线程组或者全部执行在它们各自的代码段内,或者全部执行在在陷阱处理器代码段内。
-
公开(公告)号:CN102696023B
公开(公告)日:2015-02-25
申请号:CN201080053742.0
申请日:2010-09-24
Applicant: 辉达公司
Inventor: 约翰·R·尼科尔斯 , 布雷特·W·库恩 , 伊恩·A·巴克 , 罗伯特·史蒂芬·格兰维尔
IPC: G06F15/167
CPC classification number: G06F12/1054 , G06F12/0284 , G06F12/109 , G06F13/404 , G06F2212/302 , G06F2212/656
Abstract: 本发明的一个实施例提出了一种用于将对多个各异的并行存储器空间的寻址统一到用于线程的单个地址空间的技术。将统一的存储器空间地址转换到对并行存储器空间中一个用于该线程的空间进行访问的地址。可使用指定用于线程的统一的存储器空间地址的单一类型的加载或存储指令来取代使用不同类型的加载或存储指令以访问每一个各异的并行存储器空间。
-
公开(公告)号:CN102713837A
公开(公告)日:2012-10-03
申请号:CN201080053153.2
申请日:2010-09-23
Applicant: 辉达公司
IPC: G06F9/30
CPC classification number: G06F9/3887 , G06F9/30043 , G06F9/3009 , G06F9/3836 , G06F12/0811 , G06F12/0862 , G06F12/0875 , G06F12/0897 , G06F12/121 , G06F2212/452
Abstract: 一种用于管理处理单元中的并行高速缓存层级的方法。该方法包括从调度器单元接收指令,其中该指令包括加载指令或存储指令;确定该指令包括高速缓存操作修饰符,该修饰符识别用于在并行高速缓存层级的一个或多个级别上对与指令相关的数据进行高速缓存的策略;以及执行该指令,并且基于该高速缓存操作修饰符对与该指令相关联的数据进行高速缓存。
-
公开(公告)号:CN102713837B
公开(公告)日:2016-03-02
申请号:CN201080053153.2
申请日:2010-09-23
Applicant: 辉达公司
IPC: G06F9/30
CPC classification number: G06F9/3887 , G06F9/30043 , G06F9/3009 , G06F9/3836 , G06F12/0811 , G06F12/0862 , G06F12/0875 , G06F12/0897 , G06F12/121 , G06F2212/452
Abstract: 一种用于管理处理单元中的并行高速缓存层级的方法。该方法包括从调度器单元接收指令,其中该指令包括加载指令或存储指令;确定该指令包括高速缓存操作修饰符,该修饰符识别用于在并行高速缓存层级的一个或多个级别上对与指令相关的数据进行高速缓存的策略;以及执行该指令,并且基于该高速缓存操作修饰符对与该指令相关联的数据进行高速缓存。
-
公开(公告)号:CN101231585B
公开(公告)日:2010-12-01
申请号:CN200810007026.3
申请日:2008-01-25
Applicant: 辉达公司
CPC classification number: G06F8/456
Abstract: 一种虚拟结构和指令集支持明确的并行线程计算。所述虚拟结构定义:虚拟处理器,其支持具有不同虚拟线程之间的不同级别的数据共享和协调(例如,同步)的多个虚拟线程的并发执行;以及虚拟执行驱动器,其控制所述虚拟处理器。所述虚拟处理器的虚拟指令集结构用来定义虚拟线程的行为,且包含与并行线程行为(例如,数据共享和同步)有关的指令。通过使用所述虚拟平台,编程人员能够开发出其中虚拟线程并发地执行以处理数据的应用程序;虚拟翻译器和驱动器以对于所述编程人员透明的方式来调适所述应用程序代码以适应其所执行于的特定硬件。
-
公开(公告)号:CN101075185A
公开(公告)日:2007-11-21
申请号:CN200710097456.4
申请日:2007-04-29
Applicant: 辉达公司
IPC: G06F9/38
CPC classification number: G06F17/16
Abstract: 用于减小读取矩阵乘法运算的输入所需的带宽的系统和方法可改进系统性能。不是读取第一输入矩阵的行和第二输入矩阵的列以产生乘积矩阵的列,而是读取第一输入矩阵的列和第二输入矩阵的单个元素以产生乘积矩阵的部分点乘积的列。因此,经读取以产生每个乘积矩阵元素的输入矩阵元素的数目从2N减少到N+1,其中N为所述乘积矩阵的列中的元素的数目。
-
公开(公告)号:CN102648449B
公开(公告)日:2015-08-26
申请号:CN201080054127.1
申请日:2010-09-28
Applicant: 辉达公司
Inventor: 米歇尔·C·施巴诺 , 杰克·夏高特 , 布雷特·W·库恩 , 史蒂文·J·海因里希 , 阿拉宾得·卡拉恩 , 约翰·R·尼科尔斯 , 丹尼尔·萨利纳斯 , 潇耀明 , 汤米·索恩 , 王若凡
IPC: G06F7/38
CPC classification number: G06F9/327 , G06F9/3851 , G06F9/3861
Abstract: 将陷阱处理器架构结合到诸如GPU的并行处理子系统中。该陷阱处理器架构通过强制实行以下特性来为并发执行线程最小化设计复杂度和验证工作:与流多处理器相关联的所有线程组或者全部执行在它们各自的代码段内,或者全部执行在陷阱处理器代码段内。
-
-
-
-
-
-
-
-
-