一种面向国产异构处理器的多头注意力机制算子的优化方法和系统

    公开(公告)号:CN119690522A

    公开(公告)日:2025-03-25

    申请号:CN202411863915.5

    申请日:2024-12-18

    Applicant: 湖南大学

    Abstract: 本发明公开了一种面向国产异构处理器的多头注意力机制算子的优化方法,其从四个方面提升多头注意力机制算子的效率,首先结合CPU的通用计算能力和DSP在并行计算方面的优势,构建了CPU+DSP异构处理器上的高性能多头注意力机制算子运算方法;其次利用在先softmax优化算法,将两个批处理矩阵乘和softmax算子进行融合,降低了DSP设备的访存开销;然后在多头注意力算子的计算过程中使用了DSP计算核心的向量运算指令,充分利用了DSP设备的SIMD计算特性;最后在数据传输和计算时,采用双流水机制,掩盖了数据传输时间,提升了多头注意力机制算子计算效率。

    一种用于自动混合精度优化程序的编译方法和系统

    公开(公告)号:CN119597295A

    公开(公告)日:2025-03-11

    申请号:CN202411649366.1

    申请日:2024-11-19

    Applicant: 湖南大学

    Inventor: 全哲 周一帆 李磊

    Abstract: 本发明公开了一种用于自动混合精度优化程序的编译方法,首先将待优化程序的源代码文件进行基于链式自动微分的静态误差分析技术的预处理,再利用基于链式自动微分的静态误差分析技术,分析程序中浮点变量的精度敏感度,确定精度不敏感变量,并将变量信息存储于JSON文件中;再将待优化程序的源代码文件作为输入,通过利用变量信息搜索工具来遍历文件,获取程序中所有变量的信息形成变量配置文件,并依据当前程序的精度配置方案形成变量精度待搜索空间的配置文件;利用误差分析的结果,缩小变量精度待搜索空间,形成优化后的变量精度待搜索空间文件;本发明能解决基于误差分析的自动混合精度优化技术无法保证优化之后程序的执行效率能提升的技术问题。

    一种面向异构处理器的批处理矩阵乘优化实现方法及系统

    公开(公告)号:CN117150194A

    公开(公告)日:2023-12-01

    申请号:CN202311014624.4

    申请日:2023-08-14

    Applicant: 湖南大学

    Abstract: 本申请公开了一种面向异构处理器的批处理矩阵乘优化实现方法及系统,该方法包括如下步骤:步骤S1,CPU通过hthread_mal loc函数在共享DDR内存上给矩阵分配空间;步骤S2,CPU通过决策算法计算得到决策参数,所述决策参数包括矩阵分块大小参数和m_batch大小参数;步骤S3,基于决策参数启动DSP函数。本申请有益效果如下:在DSP上实现了高效批处理矩阵乘(BGEMM)算法,可有效加速包括深度学习在内的多领域应用;减少DSP计算单元访存延迟,提高计算速度;提升GEMM的计算效率。

    一种基于SVE指令集的池化层函数的高性能实现方法

    公开(公告)号:CN115878188B

    公开(公告)日:2023-05-05

    申请号:CN202310132475.5

    申请日:2023-02-20

    Applicant: 湖南大学

    Inventor: 全哲 谭言西

    Abstract: 本申请公开了一种基于SVE指令集的池化层函数的高性能实现方法,其针对支持SVE指令集的Armv8、Armv9架构平台,采用interface接口‑driver驱动‑kernel汇编核心代码三层代码设计框架,使用循环展开,汇编级别流水线指令重排,SIMD向量化指令,双向循环展开等技术手段,实现了汇编级别的优化手段,并且提供了多线程的接口和可用于多线程的逻辑实现来获取线程化的优化。面对NHWC数据类型的池化操作,解决了编译器无法获得最佳性能的问题,提高了硬件的性能表现,与传统形式NHWC深度优先的池化相比,在x86上创建的Armv8.2虚拟机上仍可以达到2.67倍加速比。

    一种基于双向架构对抗生成网络的由文字生成图片的方法

    公开(公告)号:CN111402365B

    公开(公告)日:2023-02-10

    申请号:CN202010185829.9

    申请日:2020-03-17

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于双向架构对抗生成网络的由文字生成图片的方法,首先使用一个预训练的文字编码网络来分析文本含义,并将之映射至一个语义向量空间,然后双向架构对抗生成网络模型就可以利用语义向量来生成一张与之对应的图片。与相关技术相比,本发明具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batch normalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。

    一种基于大型系统拓扑结构的容错节点分配方法

    公开(公告)号:CN107908502B

    公开(公告)日:2021-11-05

    申请号:CN201711114201.4

    申请日:2017-11-11

    Applicant: 湖南大学

    Abstract: 本发明公开一种基于大型系统拓扑结构的容错节点分配方法,包括如下步骤:步骤一、定义系统拓扑结构中节点位置分布,确定节点的位置;步骤二、建模任意两个节点同时失效的概率模型,从而得到任意两个节点同时失效函数;步骤三、计算任意两点同时失效的概率,得到任意两点同时失效的概率为固定值;步骤四、构建节点分配模型,将计算节点集合抽象成对应的无向加权图G(V,E,W);步骤五、运行覆盖算法,求解最优节点组合,使得集合权值最小,并且将结果保存并返回。本发明相对于传统的节点分配技术,能够使得全系统内存检查点失效概率降低3倍。这也意味着我们能把多级检查点系统中的检查点恢复开销相对于传统做法降低67%。

    一种基于元学习的少样本分类方法

    公开(公告)号:CN113535953A

    公开(公告)日:2021-10-22

    申请号:CN202110798113.0

    申请日:2021-07-15

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于元学习的少样本分类方法,其结合LCM的元学习方法,训练过程主要有两个方面:Attention和岭回归分类器,Attention模块通过组合源池和支持集的分布统计信息来生成特定于类的注意力;岭回归分类器的目标是在从支持集学习之后,对查询集进行预测,由于测试阶段数据量较小,通过LCM试图挽救预测错误的标签,达到在低数据量下较高的分类准确度。

    一种将深度学习与数学分析相结合的句子分类改进方法

    公开(公告)号:CN109101584B

    公开(公告)日:2020-11-03

    申请号:CN201810812774.2

    申请日:2018-07-23

    Applicant: 湖南大学

    Abstract: 本发明提供了一种将深度学习与数学分析相结合的句子分类改进方法,该方法结合了深度学习和数学分析在处理句子问题中的优势,即长短时记忆网络(LSTM)能将句子中词的词序信息和上下文信息都考虑进去,反词频权重(AWF)能突出词在语料库中的统计特征,通过数学方法将原始向量表示S0减去S0在第一主成成分V1上的投影,得到改进后的句子特征向量表示S1,将S1作为softmax层的输入得到句子分类结果。将这些优势结合在一起,取长补短,有助于句子建模的可靠性得到更好的句子语义特征表示,从而提高句子分类的精度。同样也可用于文本(多个句子)建模的基础,有助于获得更好的文本(多个句子)分类方法。

    一种可高效更新权限的多用户可搜索加密方法和系统

    公开(公告)号:CN110166466B

    公开(公告)日:2020-02-21

    申请号:CN201910448335.2

    申请日:2019-05-28

    Applicant: 湖南大学

    Abstract: 本发明公开了一种可高效更新权限的多用户可搜索加密方法,属于云计算存储和密码学技术领域。数据拥有者先确定查询用户对文件的权限,构建出访问控制列表,然后将数据加密生成对应的密文数据以及元数据,并将它们上传到云服务端。同时数据拥有者返回给查询用户相应的访问密钥,用来从向云服务端生成查询认证。用户检索时,发送相应关键字的查询密文标识以及由认证密钥生成的认证标识。服务端接收到这些信息后,先根据认证标识进行认证,确定有权查询后再进行密文上的检索。本发明一方面避免了数据拥有者和查询用户的实时交互;另一方面使数据拥有者可以高效地更新查询用户的权限且不影响其他用户;再一方面可扩展到大规模加密数据库中。

Patent Agency Ranking