一种面向GPDSP的反卷积矩阵的向量化实现方法

    公开(公告)号:CN106959937B

    公开(公告)日:2019-03-29

    申请号:CN201710201601.2

    申请日:2017-03-30

    Abstract: 本发明公开了一种面向GPDSP的反卷积矩阵的向量化实现方法,由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间,其步骤为,S1:设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n‑1,m+n‑1),且m>n;S2:通过控制循环次数,首先计算反卷积结果矩阵C前n‑1行元素;S3:固定循环次数,计算反卷积结果矩阵C第n行至第m行元素;S4:通过控制循环次数,计算反卷积结果矩阵C倒数第n‑1行至倒数第1行元素。本发明具有原理简单、操作方便、能充分利用向量处理器完成特殊数据计算、缩短整个算法运行时间、提高算法执行效率等优点。

    面向向量处理器的基于SIMD的平均值值池化并行处理方法

    公开(公告)号:CN106991473A

    公开(公告)日:2017-07-28

    申请号:CN201710202133.0

    申请日:2017-03-30

    CPC classification number: G06N3/02 G06F9/38

    Abstract: 一种面向向量处理器的基于SIMD的平均值值池化并行处理方法,其步骤为:S1:设定池化矩阵和池化窗口;S2:根据池化窗口尺寸k,取池化矩阵A的前k行元素进行相应的累加操作,得出前k行元素对应的列和;S3:配置混洗模式并进行混洗;S4:将步骤S3中得到的结果对应相加;S5:重复步骤S3、S4直到每组元素的数值归约至p/k个VPE中为止;S6:使用向量VMOVI指令将立即数赋值给一个向量寄存器,并将此向量寄存器与累加和一一对应相乘;S7:最终得出p/k个平均值池化的结果向量;S8:顺移至池化矩阵A的k+1行,重复上述步骤S2到步骤S7直至遍历完池化矩阵A的所有子图,得到平均值池化结果矩阵。本发明具有原理简单、实现方便、能够高效计算、缩短计算时间等优点。

    面向向量处理器的二维矩阵卷积的向量化实现方法

    公开(公告)号:CN106970896A

    公开(公告)日:2017-07-21

    申请号:CN201710201589.5

    申请日:2017-03-30

    Abstract: 一种面向向量处理器的二维矩阵卷积的向量化实现方法,步骤为:S1:通过DMA控制器将卷积矩阵A和卷积核矩阵B分别搬运到向量存储单元和标量存储单元;S2:将卷积矩阵A的一行元素和卷积核矩阵B的一个元素广播后对应的一行元素一一对应相乘,结果进行累加;S3:通过混洗指令取出卷积矩阵A中取出的一行元素的前K‑1个元素至向量处理单元,与本次取出并广播至向量处理单元的卷积核矩阵B的第二个元素进行一一对应相乘,结果累加;S4:判断是否完成一行元素的计算;S5:将两个矩阵的数据地址指向下一数据行,完成矩阵C的第一行元素的计算,通过循环完成整个矩阵C的计算。本发明具有原理简单、操作方便、能大大增加算法并行度并提高计算效率等优点。

    一种基于JTAG协议的仿真装置

    公开(公告)号:CN105550119A

    公开(公告)日:2016-05-04

    申请号:CN201610063492.8

    申请日:2016-01-29

    CPC classification number: G06F11/3652 G06F11/3656

    Abstract: 本发明公开一种基于JTAG协议的仿真装置,包括并行总线接口、JTAG接口、JTAG仿真处理IP核以及接口转换单元,JTAG仿真处理IP核的一端通过并行总线接口、接口转换单元连接调试主机,另一端通过JTAG接口连接目标芯片,JTAG仿真处理IP核通过并行总线接口、接口转换单元接收调试主机的调试数据,转换为JTAG数据后通过JTAG接口输出至目标芯片,以及JTAG仿真处理IP核通过JTAG接口接收目标芯片的JTAG数据,转换为符合并行总线协议的数据,经并行总线接口、通信接口转换单元输出至调试主机。本发明具有结构简单、能够基于IP核实现JTAG仿真功能、仿真速度快且通用性及可扩展性能强的优点。

    芯片上电可靠性自动检测装置和检测方法

    公开(公告)号:CN105093094A

    公开(公告)日:2015-11-25

    申请号:CN201510587213.3

    申请日:2015-09-16

    Abstract: 本发明公开了一种芯片上电可靠性自动检测装置和检测方法,目的是解决现有技术存在的手动操作易造成失误、测量不准确、不适合做长时间、大强度上电检测等技术问题。本发明装置包括用于运行显控软件的PC机和用于芯片测试的测试板。PC机中安装有显控软件,测试板由串口芯片,FPGA,主控芯片,数控电源模块,A/D转换芯片,测试芯片插槽和与测试芯片匹配的插卡组成。进行芯片上电自动检测的方法是:PC机接收测试信息,显控软件将测试信息组装成数据帧并发送到串口芯片,测试板对被测芯片进行测试,由主控芯片的上电可靠性自动检测软件解析从FPGA传来的数据帧。采用本发明能提高测试结果的准确性,测试流程简单,操作简便。

    功能模块级多阈值低功耗控制装置及方法

    公开(公告)号:CN104639104A

    公开(公告)日:2015-05-20

    申请号:CN201510064116.6

    申请日:2015-02-06

    CPC classification number: H03K3/012 G06F1/3237

    Abstract: 本发明公开了一种功能模块级多阈值低功耗控制装置,包括:移位器,用作功能模块的栈数移位;它为一个n位的移位寄存器;c0,c1产生电路,作为移位器的功能控制模块;它是一个时序数字电路,在时钟clk_in的控制下,依据当前的输入值,分别进入打入、移位或保持状态;低功耗判决电路,用来生成低功耗控制信号;即,根据当前该功能模块的运行动态,可分别对每一级栈进行低功耗睡眠控制;n个多阈值低功耗时钟驱动控制器,每个多阈值低功耗时钟驱动控制器具有2个输入端和2个输出端。本发明具有结构简单、能够有效进行低功耗控制、降低电路动态功耗等优点。

    面向GPDSP的矩阵LU分解向量化计算的方法

    公开(公告)号:CN104636315A

    公开(公告)日:2015-05-20

    申请号:CN201510063817.8

    申请日:2015-02-06

    Abstract: 一种面向GPDSP的矩阵LU分解向量化计算的方法,其步骤为:S1:根据GPDSP的体系结构特征确定最佳的LU分解的矩阵规模N值;S2:DSP核通过DMA从片外DDR存储器将要处理的矩阵数据传输到片内共享存储阵列中;S3:DSP核按照列选主元方法,计算第i列的主元值以及对应的列元素序号值;S4:根据列li的列主元Pi以及对应的列元素序号值Vi对矩阵A内列主元Pi所在的行与列首元l[i]所在的行进行交换;S5:DSP核对列li按照公式li=li/l[i]进行列消元计算,更新列li;S6:DSP核进行更新矩阵panel的计算;S7:判断i是否等于N-1,若不是,令i=i+1,转步骤S3,若是转步骤S8;S8:计算完毕。本发明能充分利用DSP核向量处理阵列的强大并行计算、高带宽向量数据加载能力,显著提高DSP核计算访存比。

    面向兼容设计的微处理器硅后验证装置与验证方法

    公开(公告)号:CN104573228A

    公开(公告)日:2015-04-29

    申请号:CN201510004794.3

    申请日:2015-01-06

    Abstract: 本发明公开了一种面向兼容设计的微处理器硅后验证装置与验证方法,目的是解决已有微处理器硅后功能兼容验证技术存在的测试激励生成速度慢、验证结果检查效率低和控制复杂等问题。本发明为“主‐从”双芯片结构,由调试主机、开发板、主控芯片和从控芯片组成。调试主机上有主控程序和从控程序,主控芯片和从控芯片分别通过下载并运行主控程序和从控程序,在主控芯片和从控芯片上生成、运行测试激励,并由主控程序负责将主控芯片和从控芯片对测试激励程序的运行结果进行比对,最后在调试主机上显示验证结果。本发明无需人工干涉验证过程,硬件平台控制简单,可有效提高硅后验证的准确性和验证效率。

Patent Agency Ranking