-
-
公开(公告)号:CN118963738A
公开(公告)日:2024-11-15
申请号:CN202411433151.6
申请日:2024-10-15
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
摘要: 本公开的实施例提供了一种基于代码生成器Codegen的算子框架、构建方法及算子生成方法。该算子框架包括:预设代码单元,被配置为获取线程束组索引以及进行全局配置;至少一个第一代码单元,被配置为承载功能代码,其中,不同的第一代码单元对应于不同的线程束组;以及第一选择单元,被配置为根据线程束组索引选择执行的第一代码单元。通过本公开实施例提供的算子框架及其构建方法,可以预先生成一系列经过设计和验证的算子框架,开发者在开发算子时,可以利用这些预设的算子框架,并在其基础上进行开发,不仅可以简化汇编语言算子的开发流程,提高开发效率,减少出错的概率,还能增强算子生成程序的通用性和可维护性。
-
公开(公告)号:CN118567610B
公开(公告)日:2024-11-08
申请号:CN202411052381.8
申请日:2024-08-01
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
IPC分类号: G06F7/76
摘要: 本发明的实施例涉及一种用于生成输入掩码张量的方法、计算设备、存储介质和计算机程序产品。该方法在设备端处执行,并且包括:至少基于输入张量,确定输入掩码张量的张量维度和用于填充输入掩码张量的数据;以及由设备端中的至少一个计算单元,基于输入掩码张量的张量维度和用于填充输入掩码张量的数据,生成输入掩码张量,其中,所生成的输入掩码张量中的数据为比特型数据。本发明的实施例能够在设备端处直接生成用于masked_fill函数的输入掩码张量,省略了主机端与设备端之间关于输入掩码张量的传输过程,节省时间。
-
公开(公告)号:CN118626146B
公开(公告)日:2024-10-29
申请号:CN202411081222.0
申请日:2024-08-08
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
IPC分类号: G06F9/30
摘要: 本发明提供一种人工智能芯片及其寄存器空间动态管理方法和机器可读存储介质、计算机程序产品。人工智能芯片包括指令高速缓存、寄存器电路以及执行电路。指令高速缓存用以存放线程束运行所需的指令。寄存器电路用以提供寄存器空间。执行电路耦接至指令高速缓存以及寄存器电路。执行电路从指令高速缓存取得且执行所述线程束。线程束包括第一子程序段,其中第一子程序段需要使用第一寄存器空间。执行电路在执行线程束的过程中要求寄存器电路从寄存器电路的寄存器空间中分派第一寄存器空间给第一子程序段使用。在第一子程序段执行完成后且在线程束执行完成前,执行电路要求寄存器电路实时释放第一寄存器空间。
-
公开(公告)号:CN118820170A
公开(公告)日:2024-10-22
申请号:CN202411310847.X
申请日:2024-09-19
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
IPC分类号: G06F15/173 , G06F15/78 , G06F13/22 , G06F13/40
摘要: 本发明的实施例涉及一种用于板卡间数据传输的方法、板卡、电子设备和存储介质。该方法包括:向第一板卡发送写指令;响应于接收到写指令,由第一板卡将预定数量的数据写入第二板卡;向第一板卡发送屏障指令,以阻挡第一板卡向第二板卡发送后续指令,直至确定预定数量的数据全部写入第二板卡;由第一板卡确定预定数量的数据是否全部写入第二板卡;以及响应于第一板卡确定预定数量的数据全部写入第二板卡,由第一板卡向第二板卡发送同步信号,以指示预定数量的数据已全部同步至第二板卡。本发明的实施例能够避免第二板卡对第一板卡进行远程轮询,提高数据传输的性能,并且能够确保数据同步的准确性。
-
公开(公告)号:CN118626172B
公开(公告)日:2024-10-22
申请号:CN202411104719.X
申请日:2024-08-13
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
摘要: 本申请涉及用于深度学习框架适配硬件设备的中间件和方法。基于本申请,设备专用算子可以集中存放在设备算子库中,而不需要以插件的方式实际部署在深度学习框架中,并且,通过深度学习框架的通用接口访问,设备算子库中的设备专用算子可以由与当前硬件设备去耦合的抽象算子按需调用。因此,通过整体更换设备算子库即可实现深度学习框架与变更的新硬件设备的适配,而不需要执行大量的插件更新操作,从而可以降低深度学习框架对硬件设备的适配更新成本;而且,深度学习框架适配硬件设备所依赖的设备算子库和通用接口,都可以兼容深度学习框架的不同框架类型,从而可以提升深度学习框架对硬件设备的适配更新的迁移复制特性。
-
公开(公告)号:CN118689658A
公开(公告)日:2024-09-24
申请号:CN202411170791.2
申请日:2024-08-23
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
摘要: 本公开提供了一种计算设备、在计算设备中分配计算任务的方法、计算机可读存储介质和计算机程序产品。该计算设备包括:任务分发器,用于将用户的工作切分为多个计算任务并下发给任务组建器;以及任务组建器,用于为所述任务分发器下发的计算任务进行资源准备,其中,在利用连续的第一核程序和第二核程序执行连续的计算任务时,所述任务组建器被配置为:在执行了针对所述第一核程序的任务分发阶段之后,立即执行针对所述第二核程序的任务分发阶段和任务组建阶段,其中针对所述第二核程序的任务组建阶段包括预定所述第二核程序运行所需的资源;以及在所述第二核程序的至少一部分运行所需的资源被所述第一核程序释放之后,开始运行所述第二核程序的所述至少一部分。
-
公开(公告)号:CN118409982B
公开(公告)日:2024-09-24
申请号:CN202410813567.4
申请日:2024-06-21
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
IPC分类号: G06F12/1027 , G06F12/02
摘要: 本发明的实施例涉及一种用于访问设备的基地址寄存器空间的方法、计算设备和存储介质,包括:配置第一模板类,以用于封装设备的基地址寄存器空间地址的相关数据,其中第一模板类包括:第一成员变量,该第一成员变量的取值与设备的类型有关,和解引用运算符重载函数;响应于对基于第一模板类定义的对象进行解引用运算符运算,调用第一模板类中的解引用运算符重载函数,以至少基于第一成员变量和解引用运算符重载函数的返回值访问设备的基地址寄存器空间。本发明提供的访问设备的基地址寄存器空间的方法能够实现通过解引用运算符运算的方式访问可映射设备和不可映射设备两者的BAR空间,提高开发效率,并使代码易于维护。
-
公开(公告)号:CN118409758B
公开(公告)日:2024-09-06
申请号:CN202410888968.6
申请日:2024-07-03
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
IPC分类号: G06F8/41
摘要: 本发明涉及一种用于编译核函数的方法、装置、介质和程序产品。该方法包括:将编译模块转换为编译子模块,使得每个核函数及其所调用的设备函数被配置在同一个编译子模块;针对编译子模块,配置资源以用于分配所述编译子模块中的设备函数所使用的数据;以及针对每一个编译子模块,进行编译。本发明能够有效提高资源的利用率和多函数模块的编译效率。
-
公开(公告)号:CN118227948B
公开(公告)日:2024-08-06
申请号:CN202410649535.5
申请日:2024-05-24
申请人: 北京壁仞科技开发有限公司 , 上海壁仞科技股份有限公司
摘要: 本公开提供一种人工智能芯片、操作方法和机器可读存储介质。人工智能芯片包括指令调度单元以及多个计算单元。这些计算单元耦接至指令调度单元。第一运算数矩阵分为多个第一运算数片。第二运算数矩阵分为多个第二运算数片。任一个第一运算数片和任一个第二运算数片的乘算结果为乘积矩阵的多个乘积片中的一个对应乘积片。指令调度单元将关于这些乘积片中的至少一个第一乘积片的工作负载拆分给多个计算单元,其中第一乘积片的乘积片数量异于计算单元数量。
-
-
-
-
-
-
-
-
-