一种面向点云数据最远点采样的优化方法

    公开(公告)号:CN116612144A

    公开(公告)日:2023-08-18

    申请号:CN202310252721.0

    申请日:2023-03-07

    Abstract: 本发明提供了一种面向点云数据最远点采样的优化方法,包括:首先,将无序点云数据划分为多个空间独立且局部聚集的点云桶结构;然后,在每轮采样点生成过程中,提出了合并计算和隐式计算规则,基于历史数据关系,更新各点云桶的局部远点和局部远点距离等信息。最后,遍历各点云桶的局部远点,生成一轮采样过程的采样点。当采样点个数达到要求时结束。本发明提供的方法可以降低点云最远点采样的时间复杂度,并可提高计算访存的时间聚集性。

    一种面向并行应用核间通信竞争的通信性能预测方法

    公开(公告)号:CN114048045A

    公开(公告)日:2022-02-15

    申请号:CN202111295681.5

    申请日:2021-11-03

    Abstract: 本发明公开了一种面向并行应用核间通信竞争的通信性能预测方法,包括以下步骤:一、构建多核架构下考虑核间通信竞争的点对点通信性能模型;二、获取并行应用通信时序信息与进程分布情况;三、按照通信性能模型测量应用运行环境中的通信性能指标;四、结合应用通信时序预测并行应用通信开销。本方法实现对多核架构高性能计算环境下对并行应用通信性能的预测,有益于较快速准确地描述存在核间通信竞争情况下的单次通信开销,从而较为准确地预测并行应用运行时通信开销,为并行应用通信优化方案提供优化效果评价,从而指导优化并行应用通信。

    一种面向多神经网络推理场景的边缘端智算芯片共享缓存分配算法

    公开(公告)号:CN118708330A

    公开(公告)日:2024-09-27

    申请号:CN202410685232.9

    申请日:2024-05-29

    Abstract: 本发明提供了一种面向多神经网络模型推理场景的边缘端智算芯片共享缓存分配算法。本算法分为层数选择子算法和容量分配子算法。首先,层数选择子算法根据各模型各层的预测推理时长,计算出本轮次中各模型应当推理的层数,以最小化计算资源空闲;其次,容量分配子算法根据不同缓存容量下各模型的预测资源需求量,计算出各模型所分配的缓存容量,以最小化资源需求总量。层数选择子算法和容量分配子算法均采用动态规划方法,以降低算法时间复杂度。本发明提供的算法能有效改善多模型推理场景下,边缘端智算芯片缓存资源竞争问题,从而提高系统整体性能。

    一种面向并行应用核间通信竞争的通信性能预测方法

    公开(公告)号:CN114048045B

    公开(公告)日:2024-06-21

    申请号:CN202111295681.5

    申请日:2021-11-03

    Abstract: 本发明公开了一种面向并行应用核间通信竞争的通信性能预测方法,包括以下步骤:一、构建多核架构下考虑核间通信竞争的点对点通信性能模型;二、获取并行应用通信时序信息与进程分布情况;三、按照通信性能模型测量应用运行环境中的通信性能指标;四、结合应用通信时序预测并行应用通信开销。本方法实现对多核架构高性能计算环境下对并行应用通信性能的预测,有益于较快速准确地描述存在核间通信竞争情况下的单次通信开销,从而较为准确地预测并行应用运行时通信开销,为并行应用通信优化方案提供优化效果评价,从而指导优化并行应用通信。

    一种形式化的多标量乘法分析与计算加速方法

    公开(公告)号:CN116932991A

    公开(公告)日:2023-10-24

    申请号:CN202310698800.4

    申请日:2023-06-13

    Abstract: 本发明提出了一种形式化的多标量乘法分析与计算加速方法,能够相比现有方法取得更好的加速效果。针对现有密码学椭圆曲线领域多标量乘法处理复杂、计算量大的问题,本发明设计了一种形式化的计算任务分析和数据预处理方法。本发明的主要任务是分析和预处理多标量计算,实现方式是将系数表达为元列向量,并基于桶划分的思想将元列向量处理为列向量,构建“向量×矩阵=向量”的计算表达式;通过分析列向量的属性,确定可以化简的重复计算项,在实际计算中使用一部的中间结果代替可重复项。相比现有方案,本发明可以在并行处理器上实行,并且更好地支撑了大规模数据计算处理的需求。

    基于Q-Learning的并行应用多维度通信性能拓扑映射优化指导方法

    公开(公告)号:CN114048044A

    公开(公告)日:2022-02-15

    申请号:CN202111294103.X

    申请日:2021-11-03

    Abstract: 本发明提出一种基于Q‑Learning的并行应用多维度通信性能拓扑映射优化指导方法,主要目的是通过调整多维度优化指标中各指标权重,准确地指导多维度优化指标的拓扑映射方法优化方向,进而获取更优的并行应用多维度通信性能拓扑映射方案。本发明首先确定Q‑table结构、奖励机制、更新函数,然后利用Q‑Learning算法更新Q‑table信息,为当前状态选择一个较为合适的动作,进而逐步逼近最佳状态,获得更优的并行应用多维度通信性能拓扑映射优化方向。与同类方法相比,本发明可以快速并准确地解决多维度优化函数的权重调整问题,从而更好地优化并行应用通信性能。

    一种多任务并发情况下GPU资源动态分配方法

    公开(公告)号:CN114048026A

    公开(公告)日:2022-02-15

    申请号:CN202111258248.4

    申请日:2021-10-27

    Abstract: 本发明提供一种多任务情况下GPU资源的动态分配方法,以解决NVIDIA GPU多任务并发时,采用静态资源分配方法造成的大量资源空闲,系统吞吐率下降,资源分配不合理的问题,具有三个明显的特征:(1)可配置性,原生GPU环境无法自主配置程序运行时占用的资源量,本系统提出了一种软件的方法,在不修改任何硬件、驱动细节的情况下,实现了GPU程序运行时资源使用量的可配置性;(2)高效性,本方法考虑任务对不同种类资源的亲和性,将资源需求互补的任务并发执行,提高GPU资源的使用效率,加快多任务处理;(3)易用性,本方法提供了简易的程序转换模式,开发者只需要采用固定的操作步骤,即可将原生程序迁移至本系统下运行。

    基于动态伸缩内存池的流式数据异构计算内存优化方法

    公开(公告)号:CN114048025A

    公开(公告)日:2022-02-15

    申请号:CN202111256499.9

    申请日:2021-10-27

    Abstract: 基于动态伸缩内存池的流式数据异构计算的内存优化方法,该方法由四个模块组成,分别是CPU端主机内存池模块、GPU端设备内存池模块、内存池资源统一监控模块和流式数据内存需求预测模块。四个模块的主要作用是,主机内存池模块提前申请锁定内存进行缓存,设备内存池提前申请设备内存进行缓存,满足流式数据异构计算的内存申请需求;内存池资源统一监控模块定期拉取主机内存池和设备内存池的内存资源使用情况,流式数据内存需求预测模块通过监控每个时间段的内存分配需求,预测未来一段时间的内存分配需求,并根据内存池资源统一监控模块得到的内存池资源水位状况,指导两个内存池的动态扩容和缩容,以应对未来的流式数据异构计算内存分配需求。

    面向多类神经网络协同场景的张量感知片上缓存系统

    公开(公告)号:CN119719018A

    公开(公告)日:2025-03-28

    申请号:CN202411638006.1

    申请日:2024-11-15

    Abstract: 本发明提出了一种面向多类神经网络协同场景的张量感知片上缓存系统。该片上缓存架构面向多人工智能加速器协同执行多类神经网络负载下面临的片上缓存资源竞争问题,通过构建虚拟地址‑张量地址‑物理地址三级地址空间,并设计张量注册、张量注销、张量查询等指令,实现张量数据的片上缓存状态感知。同时,本发明提出基于张量数据感知的片上缓存分配算法,通过感知片上缓存状态,动态将虚拟地址映射至张量地址,优化张量数据在片上缓存中的分布,有效减少张量数据间的缓存竞争现象,进一步提升多模型协同处理的性能。

    一种基于比特串行的点云数据近邻搜索优化方法

    公开(公告)号:CN117009410A

    公开(公告)日:2023-11-07

    申请号:CN202310698942.0

    申请日:2023-06-13

    Abstract: 一种基于比特串行的点云数据近邻搜索优化方法,针对搜索点集中的每个点采用比特串行的运算方式计算其相对于参考点集的近邻点,在两点间欧式距离计算过程中初始化临时最小欧式距离平方数以及临时近邻点的必要信息;基于比特串行方式按序计算一比特搜索点和参考点的欧式距离平方数;判断是否截止条件,若否,则继续处理下一比特数据,若计算至最后一位仍不满足截止条件,则根据欧氏距离平方数和临时最小欧式距离平方数的数值大小关系更新相关数据;最后,将近邻点加入到搜索结果集中,并进行下一个搜索点的近邻计算迭代过程。本发明使用加、减、移位简化欧式距离计算过程的乘法操作,并根据数值关系提前截止,提高点云数据近邻搜索的计算效率。

Patent Agency Ranking