一种多尺度空间优化视频超分辨率方法

    公开(公告)号:CN119831848A

    公开(公告)日:2025-04-15

    申请号:CN202510149404.5

    申请日:2025-02-11

    Abstract: 本发明公开了一种多尺度空间优化视频超分辨率方法,属于图像超分辨率技术领域。所述方法包括:获取低分辨率的视频序列数据;通过网络提取视频序列的浅层特征图;通过自适应多尺度特征提取的方式提取视频序列的多尺度特征图;将多尺度特征图引入循环神经网络中,进行空间优化的对齐融合,即单帧超分结果的特征图,遍历所有视频帧,得到的单方向的超分结果;反向遍历所有视频帧,得到的反方向的超分结果;对双向超分结果进行整合,输出最终的超分结果,重建图像后得到高分辨率的视频序列数据。本发明简单而高效地从视频中提取出多尺度的细节,以此来增强视频超分辨率技术在恢复场景细节方面的性能,提高了高分辨率视频质量。

    基于残差网络和深度监督的自动驾驶三维目标检测方法

    公开(公告)号:CN117496142A

    公开(公告)日:2024-02-02

    申请号:CN202311382432.9

    申请日:2023-10-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于残差网络和深度监督的自动驾驶三维目标检测方法,属于自动驾驶技术领域。本发明主要包括以下步骤:1.基于点云数据的多层次稀疏体素特征的生成;2.BEV特征和三维区域候选框的生成;3.基于残差网络和深度监督进行由体素到点的特征优化;4.三维区域候选框的优化;5.目标检测结果的生成。基于本发明所提出的三维目标检测方法可以充分利用基于体素的RPN网络获得更高的候选框召回率,同时利用残差网络和深度监督,提取更加丰富的点信息以获得更加清晰的3D物体结构信息。深度监督的存在还可以更好的帮助网络进行优化,并且避免了网络训练过程中出现的梯度消失和梯度爆炸现象。

    基于局部特征增强的视频超分辨率方法

    公开(公告)号:CN119313566A

    公开(公告)日:2025-01-14

    申请号:CN202411874655.1

    申请日:2024-12-19

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于局部特征的视频超分辨率方法,属于视频超分辨率技术领域。本发明主要包括以下步骤:将低分辨率视频中每帧图像预处理后进行特征提取,得到浅层特征;将每帧图像及相邻帧的浅层特征输入卷积层,得到帧间运动补偿信息;利用多尺度网络结构,根据帧间运动补偿信息,将相邻帧的浅层特征进行弯曲形变,向目标帧进行对齐;将相邻帧的对齐特征与目标帧的浅层特征进行特征融合得到目标帧的融合特征;目标帧的融合特征结合其浅层特征进行特征重建,得到高分辨率图像;遍历每帧图像,得到高分辨率视频。基于本发明提出的视频超分辨率方法可获得细节纹理丰富的高质量输出。

    一种基于自监督学习的视频语义特征提取方法

    公开(公告)号:CN117541956A

    公开(公告)日:2024-02-09

    申请号:CN202311401081.1

    申请日:2023-10-26

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于自监督学习的视频语义特征提取方法,属于计算机视觉领域。包括如下步骤:1)获取图像训练样本和文本图像对训练样本;2)利用自监督学习的方式,利用图像训练样本预训练第一图像编码器;3)利用文本图像对训练样本预训练第二图像编码器;4)对预训练后的第一图像编码器和第二图像编码器再次进行联合训练;5)最后将待查询的视频帧输入联合训练后的第一图像编码器和第二图像编码器,对输出的结果进行加权求和得到最终语义特征表示。本发明可以大幅减少人工成本,在捕捉到细粒度的视频语义信息同时,保证网络有很好的泛化性能。

    基于深度学习的多特征二阶段语义相似度度量方法

    公开(公告)号:CN117540748A

    公开(公告)日:2024-02-09

    申请号:CN202311401082.6

    申请日:2023-10-26

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于深度学习的多特征二阶段语义相似度度量方法。包括如下步骤:1)收集大量特定主题的文本作为语料文本库;2)对部分语料文本进行预处理,构造数据集以供深度神经网络进行有监督学习;3)训练深度神经网络,得到能够将语料文本处理为关键词的网络模型;4)对提取的原语料文本的关键词计算关键词之间的最小编辑距离和最长公共子序列,同时结合SBERT等模型对原语料文本进行文本嵌入,计算文本之间的余弦相似度;5)利用上述多种特征结合的方法,完成特定主题的语义相似度度量。本发明较之前的方法在于将语料进行文本处理,提取出来关键信息作为相似度的一种补充策略,对结果有更多的可解释性。

    基于并行化计算设备加速宏块分析的视频编码方法

    公开(公告)号:CN117395436A

    公开(公告)日:2024-01-12

    申请号:CN202311325114.9

    申请日:2023-10-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于并行化计算设备加速宏块分析的视频编码方法,属于并行加速视频编码领域。包括:对输入视频数据进行帧分割和宏块划分;基于得到的帧与宏块信息,利用并行化计算设备,对每个宏块进行并行分析,以宏块级别并行完成帧间运动估计,得到每个宏块的运动矢量;根据生成的每个宏块的运动矢量形成的运动矢量组,进行重建编码,输出编码后的视频文件。本发明在加速视频编码的同时兼顾了视频编码的质量。相较于未进行并行优化的编码流程,本发明所提出的并行优化方式提高了编码速度、几乎未引入额外的并行编码信息损失,可以提高视频编码速度、保持视频编码质量、兼容多种编码标准以及节省计算资源。

    基于局部特征增强的视频超分辨率方法

    公开(公告)号:CN119313566B

    公开(公告)日:2025-04-01

    申请号:CN202411874655.1

    申请日:2024-12-19

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于局部特征的视频超分辨率方法,属于视频超分辨率技术领域。本发明主要包括以下步骤:将低分辨率视频中每帧图像预处理后进行特征提取,得到浅层特征;将每帧图像及相邻帧的浅层特征输入卷积层,得到帧间运动补偿信息;利用多尺度网络结构,根据帧间运动补偿信息,将相邻帧的浅层特征进行弯曲形变,向目标帧进行对齐;将相邻帧的对齐特征与目标帧的浅层特征进行特征融合得到目标帧的融合特征;目标帧的融合特征结合其浅层特征进行特征重建,得到高分辨率图像;遍历每帧图像,得到高分辨率视频。基于本发明提出的视频超分辨率方法可获得细节纹理丰富的高质量输出。

    一种多模态混合的自动驾驶统一3D检测与跟踪方法

    公开(公告)号:CN117333749A

    公开(公告)日:2024-01-02

    申请号:CN202311382428.2

    申请日:2023-10-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种多模态混合的自动驾驶统一3D检测与跟踪方法,属于自动驾驶技术领域。本发明主要包括以下步骤:1.不同模态下的BEV特征的生成;2.自适应融合的BEV特征的生成;3.单帧3D目标检测结果的生成;4.单帧3D目标跟踪结果的生成;5.帧与帧之间目标跟踪结果的迭代。基于本发明所提出的统一3D检测与跟踪方法可以将不同的传感器数据融合为统一的BEV特征,将3D目标检测与3D目标跟踪统一为一个整体。相较于使用独立的目标检测与目标跟踪模型,统一模型可以提高实时性、精度和鲁棒性,获得自动驾驶系统性能和安全性的提升。同时还可以减少模型的训练成本和部署难度。

    基于条状和全局时空衰减注意力的视频超分方法和系统

    公开(公告)号:CN119559053A

    公开(公告)日:2025-03-04

    申请号:CN202411712249.5

    申请日:2024-11-27

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于条状和全局时空衰减注意力的视频超分方法和系统,属于视频超分辨率技术领域。本发明包括以下步骤:1.提取原始视频帧图像增强后的空间特征并上采样;2.在上采样空间特征上计算空间条状注意力和时间条状注意力;3.对空间条状和时间条状注意力分别使用深度可分离卷积与残差结构进行处理,分别得到最终的注意力输出,对两种注意力输出进行融合处理,得到融合特征;4.计算空间特征图的全局时空衰减注意力,将空间特征、融合特征与全局时空衰减注意力做融合,得到最终的高分辨率的重建结果。基于本发明提出的视频超分辨率方法可以在常用数据集上提升PSNR/SSIM以及恢复出尖锐的细节信息。

    一种基于注意力与知识蒸馏的视频检索方法

    公开(公告)号:CN117520595A

    公开(公告)日:2024-02-06

    申请号:CN202311341794.3

    申请日:2023-10-17

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于注意力与知识蒸馏的视频检索方法,属于视频检索匹配技术领域。利用区域最大卷积激活策略提取不同粒度级别的特征图,生成完整视频的帧级特征,消除简单干扰帧后根据每个帧的注意力权重计算最终视频帧特征;对于每个视频对样本,教师网络在索引阶段得到最终视频帧特征,在检索阶段基于最终视频帧特征计算视频对之间的相似度,采用三元组损失训练教师网络;利用教师网络分别指导训练细粒度学生网络和粗粒度学生网络;评估粗粒度学生网络计算的视频相似度,决定是否调用细粒度学生网络,最终获得视频间的相似度结果实现检索。基于本发明提出的视频检索方法可获得具有较高准确率和较高的检索效率。

Patent Agency Ranking