-
公开(公告)号:CN110769257A
公开(公告)日:2020-02-07
申请号:CN201810830393.7
申请日:2018-07-25
申请人: 北京深鉴智能科技有限公司
IPC分类号: H04N19/42 , H04N21/44 , H04N21/4402
摘要: 公开了一种智能视频结构化分析装置、方法和系统。该组织包括FPGA芯片和多个专用的神经网络ASIC芯片,其中,所述FPGA芯片用于持续接收输入的多路视频数据流,将所述多路视频数据流按照预定规则分配给所述多个ASIC芯片,接收经所述多个ASIC芯片处理得到的结构化信息,并按照规定形式输出所述结构化信息;以及每个所述ASIC芯片用于使用神经网络算法对同时输入的至少一路视频数据流进行特征提取,以获取所需的结构化信息并将其输出至所述FPGA芯片。本发明采用了多颗AI专用芯片并行处理多路视频流,同时采用FPGA进行高效的视频分发和转发,大大提高了单板的视频分析处理速度和性能,同时使得视频分析对于环境和图像质量的要求大大降低。
-
公开(公告)号:CN110766128A
公开(公告)日:2020-02-07
申请号:CN201810837332.3
申请日:2018-07-26
申请人: 北京深鉴智能科技有限公司
摘要: 公开了一种卷积计算单元、计算方法及神经网络计算平台。该单元包括:特征图预处理模块,用于对输入的特征图矩阵d进行BTdB矩阵乘操作;卷积核预处理模块,用于对卷积核矩阵g进行GgGT矩阵乘操作;点乘计算模块,用于对特征图和卷积核预处理结果进行(GgGT)⊙(BTdB)点乘操作,以得到点乘操作结果;以及后处理模块,用于对点乘操作结果进行AT[(GgGT)⊙(BTdB)]A矩阵乘操作,以得到卷积计算结果,其中矩阵B、G、A及其转置矩阵是根据Winograd算法基于n和r的取值确定的数据值固定的系数矩阵。由此,通过引入Winograd算法,将卷积操作转换为与系数矩阵的矩阵乘操作,可以大幅降低获取卷积操作结果所需的乘法次数,从而提升硬件的处理能力。
-
公开(公告)号:CN110555508A
公开(公告)日:2019-12-10
申请号:CN201810550168.8
申请日:2018-05-31
申请人: 北京深鉴智能科技有限公司
发明人: 高梓桁
摘要: 提供了一种调整人工神经网络(ANN)的方法和装置。ANN至少包括多个层,所述方法包括:获取待训练的神经网络模型;使用高比特定点量化来对所述神经网络模型进行训练,以获得经训练的高比特定点量化神经网络模型;使用低比特对所述高比特定点量化神经网络模型进行微调,以获得经训练的带低比特定点量化的神经网络模型;以及输出所述经训练的带低比特定点量化的神经网络模型。本发明的位宽逐渐降低的神经网络训练方案兼顾神经网络的训练及部署,由此能够在极低位宽的情况下实现可以媲美浮点网络的计算精度。
-
公开(公告)号:CN110321999A
公开(公告)日:2019-10-11
申请号:CN201810289195.4
申请日:2018-03-30
申请人: 北京深鉴智能科技有限公司
摘要: 本发明公开了一种神经网络计算图优化方法。所述计算图由计算平台用于执行神经网络计算,所述计算平台从外部存储器读取计算所需数据,所述方法包括:至少基于减少所述计算平台与所述外部存储器数据交互次数的优化规则选择能够进行层融合的层对象,根据选定的层对象融合所述计算图中至少两个相邻层,其中,所述至少两个相邻层是如下的至少一种:具有相同特征图输入的横向相邻层;以及前一层的特征图计算结果是后一层输入的至少一部分的竖向相邻层。本发明的计算图优化方案可以基于规则或通过同构子图匹配自动进行。由此,找出执行计算图的最优重构方式,提升神经网络计算平台的执行效率。
-
公开(公告)号:CN110197262A
公开(公告)日:2019-09-03
申请号:CN201810157774.3
申请日:2018-02-24
申请人: 北京深鉴智能科技有限公司
摘要: 本发明公开了一种用于长短期记忆(LSTM)网络的硬件加速器。LSTM计算模块对T个有序输入进行前向LSTM计算,得到分别对应于所述T个有序输入的T个第一输出,并对所述T个有序输入进行后向LSTM计算,得到分别对应于所述T个有序输入的T个第二输出,其中,T为正整数。第一缓存用于缓存所述第一输出和所述第二输出。组合模块对所述第一缓存中缓存的对应于同一个输入的第一输出和第二输出执行组合运算,以得到对应于所述同一个输入的组合输出。由此,可以提高双向LSTM计算性能,降低响应延时,实现对双向LSTM网络计算的加速效果。
-
公开(公告)号:CN109740749A
公开(公告)日:2019-05-10
申请号:CN201711035020.2
申请日:2017-10-30
申请人: 北京深鉴智能科技有限公司
摘要: 本公开提供一种高速全连接计算的硬件实现装置与方法。根据本发明的高速全连接计算的硬件实现装置(200)包括:权重存储模块(210),用于存储用于计算的权重数据,每次存储m组权重数据,直到所有输出通道的权重计算完成;向量存储模块(220),用于存储n个输入向量数据;输出寄存模块(230),用于实现计算结果的输出缓存;核心计算模块(240),用于使得由所述权重存储模块输入的m组权重数据与由所述向量存储模块输入的n个输入向量数据进行相乘,各个相乘结果分别与之前的有效结果相加,并在乘加计算的结果上加上对应的偏置值,将最终计算结果输出到所述输出寄存模块。
-
公开(公告)号:CN107240087A
公开(公告)日:2017-10-10
申请号:CN201611033218.2
申请日:2016-11-01
申请人: 北京深鉴智能科技有限公司
摘要: 本发明提出了一种目标检测系统和方法。该目标检测系统包括:特征计算模块,采用人工神经网络计算输入图像的非线性特征,所述非线性特征包括至少一个一维向量,所述一维向量由针对所述输入图像的特定区域的多个通道特征组成;概率计算模块,采用决策树森林根据所述非线性特征计算所述特定区域包含目标的概率。人工神经网络和决策树森林可以通过硬件实现。决策树则可以具有相同的深度且左右对称。由此,决策树森林可以直接使用到达决策树叶节点的通道特征来获取特定区域包含目标的概率。
-
公开(公告)号:CN107239825A
公开(公告)日:2017-10-10
申请号:CN201611105081.7
申请日:2016-12-05
申请人: 北京深鉴智能科技有限公司
摘要: 本申请公开了一种对神经网络进行压缩的方法,所述神经网络的神经元的连接关系被多个矩阵多表示,包括:分块步骤,对所述多个矩阵进行分块,把每个矩阵分为多个子矩阵;压缩步骤,对每个子矩阵进行压缩,从而把每个子矩阵压缩为稀疏矩阵;和编码步骤,对压缩后的每个稀疏子矩阵按照进行编码。本发明提出一种对神经网络进行压缩的装置。
-
公开(公告)号:CN107239824A
公开(公告)日:2017-10-10
申请号:CN201611104030.2
申请日:2016-12-05
申请人: 北京深鉴智能科技有限公司
CPC分类号: G06N3/063 , G06F7/5443 , G06F7/57 , G06F2207/4824 , G06N3/0454 , G06N3/08
摘要: 提供一种用于实现稀疏卷积神经网络加速器的装置和方法。在本发明的装置中,包括卷积与池化单元、全连接单元和控制单元。通过依据控制信息而读取卷积参数信息与输入数据与中间计算数据,并且读取全连接层权值矩阵位置信息,根据卷积参数信息对输入数据进行第一迭代次数的卷积与池化操作,然后根据全连接层权值矩阵位置信息进行第二迭代次数的全连接计算。每个输入数据被分割为多个子块,由卷积与池化单元和全连接单元分别对多个子块并行进行操作。本发明采用专用电路,支持全连接层稀疏化卷积神经网络,采用ping‑pang缓存并行化设计与流水线设计,有效平衡I/O带宽和计算效率,并获得较好的性能功耗比。
-
公开(公告)号:CN106650592B
公开(公告)日:2020-08-28
申请号:CN201610877910.7
申请日:2016-10-05
申请人: 北京深鉴智能科技有限公司
摘要: 提出了一种目标追踪系统,包括:目标追踪模块,基于当前视频图像帧中包含目标的局部图以及所述局部图在所述当前视频图像帧中的坐标,预测下一视频图像帧中包含所述目标的局部图的坐标,其中,所述目标追踪模块的至少一部分是通过逻辑硬件实现的。该目标追踪系统还可以包括用于定位局部图的目标检测模块,以及用于从局部图中提取图像特征的特征提取模块。通过合理选择实现模块的算法,并在包括逻辑硬件和通用处理器的片上系统上合理分配计算量,能够实现高效准确的实时追踪,并能满足移动端的功耗需求。
-
-
-
-
-
-
-
-
-