-
公开(公告)号:CN108628807B
公开(公告)日:2022-11-25
申请号:CN201710165155.4
申请日:2017-03-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F17/16
Abstract: 本发明提供一种浮点数矩阵的处理方法、装置、设备及计算机可读存储介质。本发明实施例通过根据待压缩的浮点数模型矩阵,获取所述浮点数模型矩阵的最小值和所述浮点数模型矩阵的最大值,进而根据所述数位宽度、所述浮点数模型矩阵的最小值和所述浮点数模型矩阵的最大值,对所述浮点数模型矩阵进行压缩处理,以获得定点数模型矩阵,通过采用定点化方法,对深度学习模型的浮点数模型矩阵进行压缩处理,以获得定点数模型矩阵,从而降低了深度学习模型的存储空间和运算量,同时提出该装置在深度学习网络中的实现框架以最大化深度学习网络精度,即矩阵乘法部分用该装置,其它部分例如激活函数等操作保留浮点操作。
-
公开(公告)号:CN107977268B
公开(公告)日:2021-07-20
申请号:CN201710952735.8
申请日:2017-10-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供一种人工智能的异构硬件的任务调度方法、装置及可读介质。其方法包括:接收API发送的对应功能的任务执行请求,该任务执行请求中携带任务的属性信息;根据任务的属性信息获取任务的优先级,其中在线服务的优先级高于离线任务的优先级;根据任务的优先级,将对应的任务插入对应功能的调度队列中;调度队列中的各任务按照优先级由高到低排列;按照调度队列中各任务的优先级由高到低的顺序,依次控制对应功能的多个计算单元中的空闲计算单元执行对应的任务。本发明的技术方案,可以根据优先级的不同,实现离线的模型训练任务和在线推理服务的混步,从而能够大大提高资源利用率。
-
公开(公告)号:CN112395071A
公开(公告)日:2021-02-23
申请号:CN201910741694.7
申请日:2019-08-12
Applicant: 北京百度网讯科技有限公司
IPC: G06F9/50
Abstract: 本公开的实施例提供了一种用于资源管理的方法、装置、电子设备和计算机可读存储介质。该方法包括:确定所要支持的多个虚拟功能,其中多个虚拟功能中的每个虚拟功能与计算设备上运行的虚拟机相对应。该方法还包括:将物理资源集合按预定比例划分成多个物理资源子集,物理资源子集的数目与虚拟功能的数目相同。该方法进一步包括:将多个物理资源子集分别分配给多个虚拟功能。本公开的实施例可以按空分复用的方式实现对物理资源的虚拟化,具有较小的硬件和软件开销,同时提高系统安全性和可靠性。
-
公开(公告)号:CN106487896B
公开(公告)日:2019-10-08
申请号:CN201610898921.3
申请日:2016-10-14
Applicant: 北京百度网讯科技有限公司
IPC: H04L29/08
Abstract: 本申请公开了用于处理远程直接内存访问请求的方法和装置。所述方法的一具体实施方式包括:响应于用户空间发送批量远程直接内存访问RDMA请求,在RDMA网卡中为所述批量RDMA请求分配链路;将所述批量RDMA请求中的每个RDMA请求封装成供RDMA网卡的链路识别的描述符;将所封装成的多个描述符的描述符物理地址构造成链表;将所述链表的起始物理地址下发至所分配的链路,以使用所分配的链路依次读取所述链表中的描述符物理地址并对描述符物理地址对应的描述符中所封装的RDMA请求进行处理。该实施方式实现了RDMA请求的批量处理。
-
公开(公告)号:CN108628807A
公开(公告)日:2018-10-09
申请号:CN201710165155.4
申请日:2017-03-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F17/16
CPC classification number: H03M7/30 , G06F9/30018 , G06F9/30145 , G06F9/30149 , G06F9/30174 , G06F9/3851 , G06F17/16 , G06N3/02 , G06T15/005 , H03M7/24
Abstract: 本发明提供一种浮点数矩阵的处理方法、装置、设备及计算机可读存储介质。本发明实施例通过根据待压缩的浮点数模型矩阵,获取所述浮点数模型矩阵的最小值和所述浮点数模型矩阵的最大值,进而根据所述数位宽度、所述浮点数模型矩阵的最小值和所述浮点数模型矩阵的最大值,对所述浮点数模型矩阵进行压缩处理,以获得定点数模型矩阵,通过采用定点化方法,对深度学习模型的浮点数模型矩阵进行压缩处理,以获得定点数模型矩阵,从而降低了深度学习模型的存储空间和运算量,同时提出该装置在深度学习网络中的实现框架以最大化深度学习网络精度,即矩阵乘法部分用该装置,其它部分例如激活函数等操作保留浮点操作。
-
公开(公告)号:CN106445471B
公开(公告)日:2018-06-01
申请号:CN201610894738.6
申请日:2016-10-13
Applicant: 北京百度网讯科技有限公司
IPC: G06F9/302
CPC classification number: G06F17/16 , G06F9/3895 , G06N99/005
Abstract: 本申请公开了处理器和用于在处理器上执行矩阵乘运算的方法。所述处理器的一具体实施方式包括数据总线以及由k个处理单元组成的阵列处理机,其中:所述数据总线,用于依次从M×N的被乘数矩阵中读取n列的行向量并输入至所述阵列处理机中的每个处理单元、从N×K的乘数矩阵中读取n×k的子矩阵并将所述子矩阵的每个列向量输入至所述阵列处理机中对应的处理单元以及将每个处理单元执行乘运算所得到的结果输出;所述阵列处理机中的每个处理单元,用于并行对输入的行向量以及列向量执行向量乘运算,每个处理单元包括由n个乘法器和n‑1个加法器组成的华莱士树乘法器。该实施方式提高了矩阵乘运算的处理效率。
-
公开(公告)号:CN107977268A
公开(公告)日:2018-05-01
申请号:CN201710952735.8
申请日:2017-10-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供一种人工智能的异构硬件的任务调度方法、装置及可读介质。其方法包括:接收API发送的对应功能的任务执行请求,该任务执行请求中携带任务的属性信息;根据任务的属性信息获取任务的优先级,其中在线服务的优先级高于离线任务的优先级;根据任务的优先级,将对应的任务插入对应功能的调度队列中;调度队列中的各任务按照优先级由高到低排列;按照调度队列中各任务的优先级由高到低的顺序,依次控制对应功能的多个计算单元中的空闲计算单元执行对应的任务。本发明的技术方案,可以根据优先级的不同,实现离线的模型训练任务和在线推理服务的混步,从而能够大大提高资源利用率。
-
公开(公告)号:CN105893159A
公开(公告)日:2016-08-24
申请号:CN201610454483.1
申请日:2016-06-21
Applicant: 北京百度网讯科技有限公司
IPC: G06F9/50
CPC classification number: G11C7/1072 , G06F9/30025 , G06N3/0481 , G11C7/1006 , G11C7/1036 , G11C11/41 , G11C29/50004 , G11C2029/5004 , G06F9/5044
Abstract: 本申请公开了数据处理方法和装置。所述方法的一具体实施方式包括:对接收到的待处理输入数据进行预处理;根据预处理的结果以及通过线性拟合激活函数得到的结果获得所述待处理输入数据的配置参数的存储地址,其中,配置参数是根据激活函数的曲线特性预先设置的;根据所述存储地址获取所述待处理输入数据的配置参数;根据所述待处理输入数据的配置参数以及预先设定的电路结构对所述待处理输入数据的预处理结果进行处理,得到处理结果。该实施方式实现了使用配置参数和预先设定的电路结构实现对待处理输入数据的处理,不需要使用用于实现激活函数的专用电路,从而简化了电路结构,且同时可以支持多种激活函数,提高了灵活性。
-
公开(公告)号:CN107766079A
公开(公告)日:2018-03-06
申请号:CN201610693068.1
申请日:2016-08-19
Applicant: 北京百度网讯科技有限公司
CPC classification number: G06F9/3016 , G06F9/3001 , G06F9/3004 , G06F9/3802 , G06F9/3824 , G06F9/3877 , G06F9/3867 , G06F9/30047 , G06F9/3885 , G06F9/3887 , G06F9/5027 , G06F12/0207 , G06F2209/5012 , G06F2212/163
Abstract: 本申请公开了处理器和用于在处理器上执行指令的方法。所述方法的一具体实施方式包括:取出待执行的指令,所述指令包括源地址字段、目的地址字段、操作类型字段、操作参数字段;根据所述操作类型字段在至少一个执行单元中确定待生成的控制信号所控制的执行单元,根据所述源地址字段和所述目的地址字段分别确定待生成的控制信号控制执行单元所操作数据的源地址和目的地址,根据所述操作参数字段确定待生成的控制信号控制执行单元所操作数据的数据量;根据所确定的执行单元、源地址、目的地址、数据量生成控制信号;使用所述控制信号控制所述至少一个执行单元中的执行单元执行操作。该实施方式提高了指令译码和执行的效率。
-
公开(公告)号:CN107680028A
公开(公告)日:2018-02-09
申请号:CN201610621655.X
申请日:2016-08-01
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于缩放图像的处理器和方法。所述处理器的一具体实施方式包括:包括片外存储器、通信器件、控制器件以及阵列处理机,其中:所述片外存储器,用于存储待缩放的原始图像;所述通信器件,用于接收图像缩放指令;所述控制器件,用于执行所述图像缩放指令,向所述阵列处理机发出计算控制信号;所述阵列处理机,用于在所述计算控制信号的控制下,使用所述阵列处理机中的N个处理单元根据所述宽度缩放倍数、所述高度缩放倍数以及所提取像素数据中N个通道的通道值,并行计算目标像素中N个通道的通道值。该实施方式提高了图像缩放操作的处理速度。
-
-
-
-
-
-
-
-
-