-
公开(公告)号:CN119484840A
公开(公告)日:2025-02-18
申请号:CN202411682203.3
申请日:2024-11-22
Applicant: 广东博华超高清创新中心有限公司
IPC: H04N19/149 , H04N19/147 , H04N19/13 , H04N19/96 , H04N19/21 , H04N19/70
Abstract: 本发明提供了一种适合硬件实现的码率估计方法,包括以下步骤:S1.优化上下文概率模型;S2.单独设计一个比特处理单元(BPU)用于更新并保存上下文模型值;S3.对硬件实现的熵编码过程进行硬件化设计。本发明对CABAC熵编码过程中的“二值化后的bin进行上下文建模”模块进行优化,提出一种算法及硬件流水线结构,以缩短用熵编码算法来估计消耗的比特数码率过程的时间,降低硬件产品的面积和功耗,利于硬件实现,解除了在率失真优化(RDO)过程中熵编码每个bin需要逐bin更新上下文模型值的依赖,有利于硬件并行流水,同时,减少逐bin更新上下文模型值这个关键路径,降低了计算复杂度,从而降低硬件功耗。
-
公开(公告)号:CN119048680A
公开(公告)日:2024-11-29
申请号:CN202411179965.1
申请日:2024-08-27
Applicant: 广东博华超高清创新中心有限公司
Abstract: 本发明提供了一种基于稳定扩散模型的无领域限制文生三维场景方法,包括以下步骤:S1.点云初始化与深度估计:将输入的文本经过潜在扩散模型生成与给定文本相关的图像,并使用单目深度估计模型估计深度图;S2.设定相机轨迹;将初始点云划分为2*2*2的8个区域,设置长度为#imgabs0#的相机轨迹;S3.生成新点云;S4.对齐点云与修复图像;S5.使用高斯泼溅渲染得到渲染出的三维场景。本发明方法有效提高了文生三维场景的多样性和质量,并提升了生成效率。
-
公开(公告)号:CN118762092A
公开(公告)日:2024-10-11
申请号:CN202410736565.X
申请日:2024-06-07
Applicant: 广东博华超高清创新中心有限公司
IPC: G06T11/00 , G06T7/90 , G06N3/0464 , G06N3/0455 , G06N3/094
Abstract: 本发明提供了一种通过双注意力机制模块优化生成对抗网络的颜色迁移方法,其采用重着色直方特征生成对抗网络作为基础模型,基础模型包括编码器、解码器、跳跃连接模块和重调色模块。其中,编码器对输入图像进行特征提取与下采样操作,编码器的每个编码块包括新提出的双注意力机制模块;解码器对来自编码器与跳跃连接模块的特征图进行特征提取和上采样操作;跳跃连接模块传送编码器输出的特征图至解码器中,也用于生成包含目标颜色风格特征的特征图;重调色模块对解码器和跳跃连接模块输出的特征图进行颜色特征迁移和上采样操作。本发明在颜色风格迁移任务中,可输出视觉效果很好的效果图。
-
公开(公告)号:CN118485839A
公开(公告)日:2024-08-13
申请号:CN202410651212.X
申请日:2024-05-24
Applicant: 广东博华超高清创新中心有限公司
IPC: G06V10/44 , G06V10/42 , G06V10/774 , G06V20/70 , G06V10/25 , G06V10/26 , G06N3/0895 , G06N3/0455 , G06N3/0499
Abstract: 本发明提供了一种基于对比学习的区域‑语言预训练方法,包括以下步骤:S1.利用开源开集物体识别及物体检测数据集构建训练集图片数据;S2.使用预训练的开集目标检测及分割模型,预测获得全局图片中的存在显著物体的图片区域,对这些区域进行过滤;S3.对于全局对比学习和区域级别对比学习,利用结合了全局和区域的视觉‑文本交叉熵损失进行大规模预训练。本方法基于大语言模型进行标注和筛选构建大规模高质量区域‑语言数据集,能够训练出强大的区域级视觉特征提取器。本方法训练得到的预训练区域级视觉特征提取器可以适配到各种依赖区域视觉特征的下游任务中,具有较高的零样本性能。
-
公开(公告)号:CN117979016A
公开(公告)日:2024-05-03
申请号:CN202311758564.7
申请日:2023-12-20
Applicant: 广东博华超高清创新中心有限公司
IPC: H04N19/42 , H04N19/146 , H04N19/196 , H04N17/00
Abstract: 本发明提供了一种提高视频编码服务器能效的方法,包括:S0.通过针对不同的分辨率、码率和帧率的视频进行编码测试,得到一个cpu和内存硬件性能需求与分辨率、码率、帧率三个参数的映射表;S1.获取待编码视频的参数;S2.根据步骤S1中获取的待编码视频的参数结合映射表估算视频编码需要的cpu颗数和内存硬件性能需求;S3.按照步骤S2的估算,设置所需cpu颗数和内存数量;S4.获取待编码视频的输出方式:保存成本地文件或通过网络发送;以及S5.根据步骤S4中获取的输出方式,如果通过网络发送则不需要使用硬盘,将所有硬盘休眠,如果保存成本地文件则降低硬盘的读写频率。本发明在编码时可以按照估算的硬件需求控制服务器硬件的使用,从而降低功耗提高能效。
-
公开(公告)号:CN113221908B
公开(公告)日:2024-04-16
申请号:CN202110622917.5
申请日:2021-06-04
Applicant: 深圳龙岗智能视听研究院 , 广东博华超高清创新中心有限公司
IPC: G06V30/30 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 基于深度卷积神经网络的数字识别的方法,包括:算法模型设计:对标准目标检测模型算法进行结构调整,减少深度卷积神经网络的层数、通道数、宽度,以减少计算量;算法模型训练:深度卷积神经网络在使用前,需要对深度卷积神经网络进行训练;算法模型转换:算法模型训练好后,对算法模型进行格式变换、模型量化、算子替换转换操作,让算法模型在单片机上运行;以及算法模型移植:算法模型转换后,将算法模型文件烧录到单片机中,单片机运行的深度卷积神经网络框架会加载并运行算法模型。本发明方法可以解决原有卷积神经网络数字识别算法无法在单片机设备运行的问题。
-
公开(公告)号:CN117640954A
公开(公告)日:2024-03-01
申请号:CN202311665947.X
申请日:2023-12-05
Applicant: 广东博华超高清创新中心有限公司
IPC: H04N19/23 , H04N19/176
Abstract: 本发明提供了一种图像敏感信息快速马赛克的编解码传输方法,包括以下步骤:S1.输入一张原始图像;S2.对原始图像进行敏感信息检测,获得所述敏感信息所在原始图像中的坐标;S3.获取敏感信息宏块索引;S4.原始图像继续正常图像编码;S5.扩展生成数据;S6.码流传输;S7.解析序列头获取马赛克扩展数据参数;以及S8.根据马赛克开关选择是否解码输出。本发明的方法可以灵活配置到敏感信息马赛克,并且不影响原始拍摄图像的关键信息,极大提升了应急效率。
-
公开(公告)号:CN116600167A
公开(公告)日:2023-08-15
申请号:CN202310268866.X
申请日:2023-03-20
Applicant: 广东博华超高清创新中心有限公司
IPC: H04N21/44 , H04N21/4402
Abstract: 本发明提供了一种多视频切换去除黑屏的解码方法,采用国科微GK6525V100解码芯片,对于由第一视频packet 1~packet n和第二视频packet n+1~packet n+n组合成的传输流TS,使用双解码单元的第一解码单元对TS packet数据包进行解复用、解码输出到window显示窗口,并依次往下遍历packet包,同时使用双解码单元的第二解码单元对TS packet进行解复用,但不进行解码,直到第二解码单元遍历到第二视频后停下;第二解码单元对第二视频的第一包packet n+1解码图像放在显示缓冲区,当第一解码单元解码到第一视频的最后一包packet n,图像输出到window显示窗口后,将显示缓冲区的内容填入window显示窗口。本发明方法去除了视频切换过程中出现的黑屏现象,切换视频的时候更加丝滑,提升用户体验和显示效果。
-
公开(公告)号:CN113537071B
公开(公告)日:2023-08-11
申请号:CN202110811885.3
申请日:2021-07-19
Applicant: 深圳龙岗智能视听研究院 , 广东博华超高清创新中心有限公司
IPC: G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 基于事件相机的静态和动态的目标识别的检测方法,包括以下步骤:S1.初始化;S2.数据采样;S3.动态数据评估:评估采样到的事件相机数据是否属于动态数据;S4.如果步骤S3中的评估显示不属于动态数据,则数据是静态数据,通过曝光采样对静态数据进行采样处理;S5.将采样到的事件相机数据通过数据转换,转换成为可以进行特征提取的矩阵数据;S6.将转换好的事件相机数据,利用神经网络提取事件相机数据的目标特征;S7.全将提取到的目标特征输入到最后全连接层进行检测结果的预测;以及S8.输出结果。本发明方法解决了事件相机无法对静态和动态目标同时获取的问题,以及利用神经网络对事件相机获取到动态和静态目标进行有效的识别的问题。
-
公开(公告)号:CN113691818B
公开(公告)日:2023-06-30
申请号:CN202110979769.2
申请日:2021-08-25
Applicant: 深圳龙岗智能视听研究院 , 广东博华超高清创新中心有限公司
IPC: H04N19/625 , H04N19/61 , H04N19/176 , H04N19/593 , G06V10/82 , G06V10/774 , G06V20/40 , G06N3/0464 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,公开了一种视频目标检测方法、系统、存储介质、计算机视觉终端,在AVS标准下的解码阶段的DCT变换解码前,对DCT码流数据利用相邻错位拼接法进行拼接,将拼接结果作为CNN模型的输入,消除CNN模型输入数据冗余。本发明在CNN模型输入数据阶段,对视频单帧图像的DCT码流进行拼接,去除图像中的冗余数据,进而消除CNN模型输入数据的冗余。特别的,使用基于AVS编解码标准中的DCT编码,在其未解码的情况下进行拼接处理,将拼接结果,作为单帧图像信息,输入到CNN模型中,最终实现消除CNN模型输入数据冗余的问题。从而解决旧有方法,因图像解码增加大量冗余数据,导致CNN模型输入数据冗余的问题。
-
-
-
-
-
-
-
-
-