一种可灵活配置的神经网络计算单元、计算阵列及其构建方法

    公开(公告)号:CN109409512A

    公开(公告)日:2019-03-01

    申请号:CN201811133940.2

    申请日:2018-09-27

    IPC分类号: G06N3/063 G06N3/04

    摘要: 本发明公开一种可灵活配置的神经网络计算单元、计算阵列及其构建方法,神经网络计算单元包括:可配置存储模块、可配置控制模块和可时分复用的乘加计算模块;可配置存储模块包括:特征图数据缓存buffer、步长数据缓存buffer和权值数据缓存buffer;可配置控制模块包括:计数器模块和状态机模块;乘加计算模块包括:乘法器和累加器。本发明可支持任意类型的卷积计算,且支持多尺寸卷积核并行计算,充分发掘卷积神经网络计算单元的灵活性和数据重用性,大幅降低由数据搬移带来的系统功耗,提高系统的计算效率。

    一种兼容不同分辨率和宽长比的多视频缩放模块及并行工作方法

    公开(公告)号:CN107147890B

    公开(公告)日:2018-12-07

    申请号:CN201710332008.1

    申请日:2017-05-11

    摘要: 本发明公开一种兼容不同分辨率和宽长比的多视频缩放模块及并行工作方法,包括:(1)、根据输入视频分辨率和输出分辨率需求,确定缩放模块个数;(2)、根据步骤(1)确定的个数和缩放算法,构建插值窗;(3)、由缩放模块产生控制信号,从行存中读取数据并更新到插值窗中;(4)、根据缩放模块产生的控制信号,从步骤(2)构建的插值窗中选取对应数据分别送到工作的缩放模块;每个缩放模块分别将视频源各子视场相对应的位置数据进行缩放,再将缩放后的数据融合输出。本发明在数据吞吐率大幅度增加的前提下使系统能在较低时钟频率下稳定工作;同时该发明兼容普通的2D视频源缩放和裸眼3D视频的缩放处理,而且兼容不同宽长比的显示终端。

    一种2D转3D技术中易于硬件实现的运动向量提取方法

    公开(公告)号:CN102622770B

    公开(公告)日:2014-09-03

    申请号:CN201210076219.0

    申请日:2012-03-21

    IPC分类号: G06T7/20 H04N13/00

    摘要: 一种2D转3D技术中易于硬件实现的运动向量提取方法,从连续两帧的图像信息中提取运动向量,生成向量图,在对两帧图像进行匹配时,先对处于图像中物体边缘上的点进行了运动匹配,然后通过图像分层及连通域标记对图像分块,认为同一个块具有相同的运动向量,分块结果结合前面的边缘运动向量得到最终的运动向量图,本发明在获得准确运动向量检测结果的基础上,不仅可以节省运算时间,而且相较于全图像直接匹配的方法,极大地减小了运算量,便于在硬件上的实现。

    一种基于通道依赖关系图的片上互联网络容错路由方法

    公开(公告)号:CN102761475A

    公开(公告)日:2012-10-31

    申请号:CN201210083054.X

    申请日:2012-03-27

    IPC分类号: H04L12/56 H04L12/24

    摘要: 一种基于通道依赖关系图的片上互联网络容错路由方法,首先,对应用程序的通信特性进行分析,建立应用程序模块的通信关系二分图,生成通信关系矩阵ATM,同时,生成无故障情况下的通道依赖关系有向图CDG,通过粗、细粒度故障检测,生成故障情况下的通道依赖关系有向图FCDG,应用转向模型最终生成对应的无环通道依赖关系有向图AFCDG及相应的数据流通信矩阵FCM,其次对ATM和FCM进行矩阵分析,选择可连通的单VC或多VC的AFCDG并对VC顺序进行设置,最后通过比较获得最佳的负载均衡路由方案,该方法通过粗,细粒度的故障检测方法最大限度地利用可用资源,构造基于单VC或多VC的带权重无环通道依赖关系有向图AFCDG实现避免死锁及负载均衡的目的。

    一种2D转3D技术中易于硬件实现的运动向量提取方法

    公开(公告)号:CN102622770A

    公开(公告)日:2012-08-01

    申请号:CN201210076219.0

    申请日:2012-03-21

    IPC分类号: G06T7/20 H04N13/00

    摘要: 一种2D转3D技术中易于硬件实现的运动向量提取方法,从连续两帧的图像信息中提取运动向量,生成向量图,在对两帧图像进行匹配时,先对处于图像中物体边缘上的点进行了运动匹配,然后通过图像分层及连通域标记对图像分块,认为同一个块具有相同的运动向量,分块结果结合前面的边缘运动向量得到最终的运动向量图,本发明在获得准确运动向量检测结果的基础上,不仅可以节省运算时间,而且相较于全图像直接匹配的方法,极大地减小了运算量,便于在硬件上的实现。

    一种利于实现数字视频图像缩放插值的行场信号产生方法

    公开(公告)号:CN1794343A

    公开(公告)日:2006-06-28

    申请号:CN200510096293.9

    申请日:2005-11-03

    IPC分类号: G09G5/391 G09G5/00 H04N7/01

    摘要: 本发明公开了一种利于实现数字视频图像缩放插值的行场信号产生方法,该方法在一维方向上双三次插值的装置中采用输入行场信号调制输出行场信号,保证两者的同步性,并且累加计数的一个循环长度限制在63行以内,缩小累加误差,满足输出行场信号的周期性要求。本发明的行场信号产生方法可以满足保证输出行场信号的周期性和保证输入、输出行场信号的同步性这两点要求,使得该装置数据存储器前后无需fifo缓存,节省硬件资源,且读写控制逻辑简单。

    一种应对非规则访存的数据预取器

    公开(公告)号:CN118132464A

    公开(公告)日:2024-06-04

    申请号:CN202410122002.1

    申请日:2024-01-29

    摘要: 一种应对非规则访存的数据预取器,包括:访问索引表、访问目标表、差分匹配模块、索引队列、间接访问候选记分牌、地址生成器、间接访问关系表、预取状态处理寄存器、重复过滤器、连续地址过滤器和范围预取表,该数据预取器用于监听计算核心与第一级缓存、第一级缓存和第二级缓存之间的访问请求和数据响应的事件。该数据预取器可应用在各类采用层级存储设计的通用计算架构中,实现对非规则间接访问的模式捕获和数据预取,减少非规则访存带来的长延时存储访问开销,提高计算架构的每周期执行指令数(IPC)。

    基于RISC-V的拓展VM指令集编码方法

    公开(公告)号:CN115373744A

    公开(公告)日:2022-11-22

    申请号:CN202210924350.1

    申请日:2022-08-02

    IPC分类号: G06F9/30 G06F9/312 G06F9/38

    摘要: 本公开揭示了一种选用RISC‑V指令集架构作为处理器的基本实现,提出了一种基于RISC‑V的端侧DNN场景下的拓展VM指令集编码方法。本公开针对DNN场景扩展了一套自定义的RISC‑V向量拓展和矩阵拓展指令。并且,本公开给出了向量指令集和矩阵指令集指令的具体编码方式。此外,本公开还提出了相应的处理器。

    一种兼容非对称多精度混合乘累加运算的运算单元

    公开(公告)号:CN115357214A

    公开(公告)日:2022-11-18

    申请号:CN202210923139.8

    申请日:2022-08-02

    IPC分类号: G06F7/523 G06F7/544

    摘要: 本公开揭示了一种兼容非对称多精度混合乘累加运算的运算单元。这是一种兼容非对称数据格式的,多精度混合乘累加运算的运算单元设计。该PE单元,基于一组定点乘法器(4个5×5乘法器),针对不同精度的数据,对传入数据进行高低位拆分和符号位扩展,并通过控制指定乘法器的激活状态来降低功耗,并且通过精度模式选择和乘法器使能信号来实现对PE单元的空间复用和时间复用,最终完成不同精度数据的乘累加运算。该发明对于神经网络稀疏量化运算中的芯片资源闲置、功耗浪费和面积优化具有重要的意义。

    基于视觉的拓扑地图生成方法

    公开(公告)号:CN111340870B

    公开(公告)日:2022-04-01

    申请号:CN202010041500.5

    申请日:2020-01-15

    IPC分类号: G06T7/579 G06F16/29

    摘要: 本发明公开了基于视觉的拓扑地图生成方法,包括:获取图像信息,基于图像信息以预定频率抽取图像帧;基于图像帧预处理得到关键帧,判断当前是否产生回环,若产生回环,矫正当前已有拓扑地图,如果关键帧是本次建图运行过程中的第一帧图像,则在其所在位置设置拓扑节点;其他拓扑点的判别方式包括两种:一是比较图像信息与已有拓扑地图中最新加入的拓扑节点的图像,判断两幅图像的描述符相似度是否低于第一阈值,如果低于第一阈值,则将关键帧的图像所在位置作为新的拓扑节点加入拓扑地图,存储当前帧。二是判断连续若干帧的角度信息相对于上一拓扑节点是否大于第二阈值,大于则将关键帧的图像所在位置作为新的拓扑节点加入拓扑地图,存储当前帧。