一种可配置的通用卷积神经网络加速器

    公开(公告)号:CN110390384B

    公开(公告)日:2021-07-06

    申请号:CN201910554533.7

    申请日:2019-06-25

    Applicant: 东南大学

    Abstract: 本发明公开了一种可配置的通用卷积神经网络加速器,属于计算、推算、计数的技术领域。该加速器包括:PE阵列、状态控制器、功能模块、权重缓存区、特征图缓存区、输出缓存区和寄存器栈,状态控制器包括网络参数寄存器和工作状态控制器。通过配置网络参数寄存器对不同规模的网络均能取得优异的加速效果,工作状态控制器控制着加速器工作状态的切换并将控制信号发送至其它模块。权重缓存区、特征图缓存区和输出缓存区均由多个数据子缓存区构成,用于分别存放权重数据、特征图数据和计算结果。本发明能够针对不同的网络特点,配置合适的数据重用模式、阵列尺寸和子缓存区个数,通用性好,功耗低,吞吐量高。

    一种在线学习的人脸识别方法

    公开(公告)号:CN109145717B

    公开(公告)日:2021-05-11

    申请号:CN201810719313.0

    申请日:2018-06-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种在线学习的人脸识别方法,属于计算推算的技术领域,尤其涉及人脸识别的计算机视觉技术领域。该方法利用外部数据集训练人脸特征提取器,提取本地数据集中各成员对应的参考特征以构成参考特征空间,对比待测试样本的特征向量和参考特征以确定与待测试样本的特征向量最相似的参考特征,在与待测试样本的特征向量最相似的参考特征满足阈值要求时,以与待测试样本的特征向量最相似的参考特征所属成员的身份为待测试样本的身份,否则,返回待测试样本身份识别失败的消息,根据待测试样本的预测特征向量与其在参考特征空间中对应的真实特征向量的差异更新参考特征空间,适应人脸特征随时间推移发生的变化,尤其适合频繁变更成员的场合。

    一种基于FPGA的支持通道分离卷积的神经网络加速器

    公开(公告)号:CN112766479A

    公开(公告)日:2021-05-07

    申请号:CN202110100516.3

    申请日:2021-01-26

    Applicant: 东南大学

    Abstract: 本发明公开一种基于FPGA的支持通道分离卷积的神经网络加速器,该加速器包括:Ping‑Pong寄存器文件、可配置数据流的输出特征值行映射单元ORMU阵列、功能单元模块以及存储器接口模块等;Ping‑Pong寄存器文件从控制处理器接受配置和控制字,完成计算后发出中断信号;ORMU阵列采用可配置的片上网络将ORMU单元和缓存互联,以满足不同数据带宽需求的神经网络的计算;功能单元模块用以实现Pooling池化、Relu激活以及批量归一化BN等功能;存储器接口模块用以传输权重和特征值。本发明通过灵活的分层网状片上网络,以支持通道分离卷积(逐通道卷积和逐点卷积)、传统卷积以及全连接对数据带宽的不同需求,从而保证较高的计算单元的利用率,极大的提升了推理/计算速度。

    一种基于幂指数量化的深度神经网络硬件加速器

    公开(公告)号:CN110390383B

    公开(公告)日:2021-04-06

    申请号:CN201910554531.8

    申请日:2019-06-25

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于幂指数量化的深度神经网络硬件加速器,涉及深度神经网络卷积计算硬件加速的处理器结构,属于计算、推算、计数的技术领域。硬件加速器包括:AXI‑4总线接口、输入缓存区、输出缓存区、权重缓存区、权重索引缓存区、编码模块、可配置状态控制器模块、PE阵列。输入缓存区和输出缓存区设计成行缓存结构;编码器依据有序量化集对权重编码,该量化集存放所有权重量化后的绝对值可能取值。加速器计算时,PE单元从输入缓存区、权重索引缓存区读取数据进行移位计算,将计算结果送至输出缓存区。本发明用移位运算代替浮点乘法运算,降低了对计算资源、存储资源以及通信带宽的要求,进而提高了加速器计算效率。

    一种基于在线学习的跨年龄人脸识别方法

    公开(公告)号:CN111783532A

    公开(公告)日:2020-10-16

    申请号:CN202010459828.9

    申请日:2020-05-27

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于在线学习的跨年龄人脸识别方法,属于计算、推算或计数的技术领域。该方法,通过人脸特征提取网络级联年龄特征分离网络的模型结构实现,在外部数据集上训练人脸特征提取网络,使得模型具备对人脸进行特征提取的能力;使用跨年龄人脸数据集对年龄特征分离部分进行身份识别和年龄预测的多任务训练,以获得鲁棒性更强的年龄不变的人脸特征向量;在实际场景使用中,可以根据新输入的样本对特征分离部分的参数进行微调,实现神经网络的在线学习。本发明在使用参数量较低的模型的同时,一定程度上提升了跨年龄人脸识别的能力,特征分离结构使得在线学习成为了可能,使模型具备了对新场景的自适应能力。

    一种在线学习的人脸识别方法

    公开(公告)号:CN109145717A

    公开(公告)日:2019-01-04

    申请号:CN201810719313.0

    申请日:2018-06-30

    Applicant: 东南大学

    CPC classification number: G06K9/00268 G06K9/00718 G06N3/0454 G06N3/084

    Abstract: 本发明公开了一种在线学习的人脸识别方法,属于计算推算的技术领域,尤其涉及人脸识别的计算机视觉技术领域。该方法利用外部数据集训练人脸特征提取器,提取本地数据集中各成员对应的参考特征以构成参考特征空间,对比待测试样本的特征向量和参考特征以确定与待测试样本的特征向量最相似的参考特征,在与待测试样本的特征向量最相似的参考特征满足阈值要求时,以与待测试样本的特征向量最相似的参考特征所属成员的身份为待测试样本的身份,否则,返回待测试样本身份识别失败的消息,根据待测试样本的预测特征向量与其在参考特征空间中对应的真实特征向量的差异更新参考特征空间,适应人脸特征随时间推移发生的变化,尤其适合频繁变更成员的场合。

    一种基于肤色和Adaboost算法的人脸检测方法

    公开(公告)号:CN104504383B

    公开(公告)日:2018-10-30

    申请号:CN201510019489.1

    申请日:2015-01-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于肤色和Adaboost算法的人脸检测方法,输入的图像或视频经预处理后,由RGB空间经非线性分段变换为YCb’Cr’空间,再经二值化处理及形态学处理,得到分割好的肤色区域;将利用Adaboost算法训练好的级联分类器对分割好的肤色区域进行人脸检测,输出结果,完成检测。本发明的人脸检测算法,既保证检测率又保证效率,利用非线性颜色空间分段转换弥补传统的线性转换带来的不精确性,确保肤色像素最大化的被提取出来;重新训练的Adaboost级联分类器,能够减少原有级联分类器的级数,减少训练时间,提高检测速度。

    一种应用于正交频分复用系统的载波同步的方法

    公开(公告)号:CN104168227B

    公开(公告)日:2017-05-03

    申请号:CN201410380674.9

    申请日:2014-08-04

    Applicant: 东南大学

    Abstract: 本发明公开了一种应用于正交频分复用系统中载波同步的方法,包括以下步骤:1)OFDM系统的发射模块在有效OFDM符号前发送用于载波频偏估计的训练序列;2)根据接收到的训练序列的第一组移位相关序列的相位信息进行粗载波频偏估计;3)根据接收到的训练序列的第二组移位相关序列的相位信息进行细载波频偏估计;4)根据粗载波频偏估计值与细载波频偏估计值得到总的载波频偏估计值;5)根据总的载波频偏估计值进行载波频偏补偿;本发明提出的载波同步方法不依赖训练序列的特殊结构,能够有较好的估计性能和较低的复杂度,同时本发明的算法拥有较大的估计范围以及较小的估计均方误差,在高斯白噪声信道和多径衰落信道都有良好的性能。

    一种基于FPGA的卷积神经网络片上训练加速器

    公开(公告)号:CN113298237B

    公开(公告)日:2024-05-14

    申请号:CN202110697592.7

    申请日:2021-06-23

    Applicant: 东南大学

    Abstract: 本发明公开一种基于FPGA的卷积神经网络片上训练加速器,属于计算、推算或计数的技术领域。本卷积神经网络片上训练加速器主要包括:输入数据缓存器、权重数据缓存器、中间运算值缓存器、多模式PE运算单元、最值统计模块、批量归一化模块、激活函数运算模块、量化模块、最大池化模块、梯度更新模块、批量归一化更新模块、编码模块以及逻辑控制模块。本发明通过对各模块的优化设计,实现同时对多张图进行运算,增加了硬件加速器运行时的并行性,降低了对硬件资源的需求,并减少训练过程中的数据流动量,提高了运算效率。本发明通过尽可能充分利用硬件资源,而较为创新地提出了在资源有限的FPGA开发板上进行卷积神经网络训练的实现方法。

    一种基于脉动阵列的深度可分离卷积实现方法

    公开(公告)号:CN113313252B

    公开(公告)日:2022-10-25

    申请号:CN202110562786.6

    申请日:2021-05-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于脉动阵列的深度可分离卷积实现方法,采用M行N列个处理单元(Processing Element,PE单元)构成脉动阵列结构:在水平方向上,相邻的PE单元之间相互连接,左侧的PE单元可以将数据传递给右侧的PE单元;在垂直方向上,每个PE单元有各自的数据输入端口和数据输出端口。数据预取模块为计算阵列提供特征图数据和权重参数。加法树对每一列PE单元并行输出的部分和数据进行累加。每个PE单元内部主要由寄存器、数据选择器、加法器和乘法器构成。本发明采用上述结构的脉动阵列并配合数据预取模块和加法树,可以实现不同的数据流和数据重用方式,从而实现对标准卷积、点卷积和深度卷积的加速计算。

Patent Agency Ranking