-
公开(公告)号:CN113487564A
公开(公告)日:2021-10-08
申请号:CN202110753105.4
申请日:2021-07-02
Applicant: 杭州电子科技大学
Abstract: 本发明属于用户原创内容视频处理技术领域,公开了一种用于用户原创视频的双流时序自适应选择视频质量评价方法,包括1:基于内容权重分配帧内质量感知模块;2:双流全局时域建模;3:双流更深层次损失函数权重分配。本方法从时域与空域两个维度对视频质量特征进行提取,在空域方面,提取了多尺度的特征图,结合人眼视觉显著性感知对特征图进行权重再分配。在时域方面,引入双流更深层次RNN结构,对前向与后向时序信息进行迭代提取深层次双时序信息。最后,通过深度监督模块对不同的感知层次与顺序的进行损失函数的分配后回归最后的得分。在四个UGC‑VQA数据库上,与目前最好的深度学习方法相比,实现了更进一步的性能提升。
-
公开(公告)号:CN114330653A
公开(公告)日:2022-04-12
申请号:CN202111586693.3
申请日:2021-12-23
Applicant: 杭州电子科技大学
Abstract: 本发明属于深度学习领域,公开了一种计算和访存高效的CNN网络模型计算调度映射方法。包括如下步骤:步骤1:根据片上SRAM存储配置确定存储映射方案;步骤2:根据片上可并发MAC计算单元配置确定计算映射方案;步骤3:根据网络模型、存储和计算映射方案,确定流水调度优化方案。本发明的一种计算和访存高效的CNN网络模型计算调度映射方法包括单位MAC计算单元算力、可并发强度、片上缓存颗粒度、缓存大小,并结合算法网络结构特点,为每个网络层实现优化映射,提出计算、存储、访存带宽多目标优化的网络结构映射实现方法。
-
公开(公告)号:CN118626669A
公开(公告)日:2024-09-10
申请号:CN202410505385.0
申请日:2024-04-25
Applicant: 杭州电子科技大学
IPC: G06F16/583 , G06V10/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06V30/18 , G06V30/19 , G06V30/41 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种考虑场景文本位置关系的图文检索方法。首先准备数据,进行特征提取;然后进行图片端场景文本的特征融合,得到图片端的场景文本特征;再通过位置关系建模分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征;将两者进行融合,得到图片端的总特征;另一方面提取文本端的总特征最后根据文本总特征和图片总特征之间的相似度,取相似度最高的图片‑文本对作为检索的结果。通过考虑场景文本的位置关系,本发明提供了一种改进的方法,可以提高图文检索的准确性,改善多模态信息融合,并在处理含场景文本的任务中表现出色。这对于多种应用领域都具有重要意义,包括图像检索和图像生成。
-
公开(公告)号:CN118196371A
公开(公告)日:2024-06-14
申请号:CN202410136130.1
申请日:2024-01-31
Applicant: 杭州电子科技大学
IPC: G06V10/25 , G06V10/26 , G06T7/194 , G06N3/045 , G06N3/0895 , G06N3/0464 , G06N3/094 , G06N3/084 , G06N3/096
Abstract: 本发明公开了一种基于背景、前景裁剪互换的目标检测域适应方法。本发明采用半监督学习的师生模型框架,通过教师模型的指数移动平均来进行缓慢更新,使得模型能够从学生模型习得的主要知识中获取信息,从而实现自监督效果。通过引入域辨别器进行对抗训练,增强了模型提取域不变表征的能力,从而提高了鲁棒性。此外,前景‑背景混合实例策略进一步增强了模型的域适应能力,通过裁剪、填充和粘贴操作,有效地创建了带有源域背景的目标域实例图像和带有目标域背景的源域实例图像。最后,采用迭代优化策略,不断改进模型性能,通过计算多个损失函数进行梯度反向传播来更新学生模型,并使用指数移动平均来更新教师模型。
-
公开(公告)号:CN113487564B
公开(公告)日:2024-04-05
申请号:CN202110753105.4
申请日:2021-07-02
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06N3/0464 , G06N3/042 , G06N3/09 , H04N17/00
Abstract: 本发明属于用户原创内容视频处理技术领域,公开了一种用于用户原创视频的双流时序自适应选择视频质量评价方法,包括1:基于内容权重分配帧内质量感知模块;2:双流全局时域建模;3:双流更深层次损失函数权重分配。本方法从时域与空域两个维度对视频质量特征进行提取,在空域方面,提取了多尺度的特征图,结合人眼视觉显著性感知对特征图进行权重再分配。在时域方面,引入双流更深层次RNN结构,对前向与后向时序信息进行迭代提取深层次双时序信息。最后,通过深度监督模块对不同的感知层次与顺序的进行损失函数的分配后回归最后的得分。在四个UGC‑VQA数据库上,与目前最好的深度学习方法相比,实现了更进一步的性能提升。
-
公开(公告)号:CN115222998B
公开(公告)日:2023-01-03
申请号:CN202211120458.1
申请日:2022-09-15
Applicant: 杭州电子科技大学 , 浙江大华技术股份有限公司
Inventor: 颜成钢 , 殷俊 , 颜拥 , 王洪波 , 胡冀 , 熊剑平 , 李亮 , 郑博仑 , 林聚财 , 孔书晗 , 王亚运 , 孙垚棋 , 金恒 , 朱尊杰 , 高宇涵 , 殷海兵 , 王鸿奎 , 陈楚翘 , 刘一秀 , 李文超 , 王廷宇 , 张勇东 , 张继勇
IPC: G06V10/764 , G06V10/30 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络;然后将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图;最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。本发明设计了一种新的多尺度自注意力机制,它利用一系列的深度可分离卷积操作,生成特征信息高度相关的局部特征图和区域特征图,不但可以强化自注意力机制的细粒度特征提取能力,还可以高效的提取有效的全局信息。
-
公开(公告)号:CN119313866A
公开(公告)日:2025-01-14
申请号:CN202411159473.6
申请日:2024-08-22
Applicant: 杭州电子科技大学
IPC: G06V10/25 , G06V10/82 , G06N3/0464 , G06N3/0895 , G06N3/09 , G06N3/096 , G06N5/04
Abstract: 本发明公开了一种基于随机上下文一致性推理的目标检测域适应方法。采用半监督学习的师生模型框架,通过教师模型的指数移动平均来进行缓慢更新,使得模型能够从学生模型习得的主要知识中获取信息,从而实现自监督效果。通过引入随机互补掩码模块掩码掉网络严重依赖的部分局部视觉特征,从而鼓励网络利用上下文中的其他视觉线索。此外,通过内部上下文一致性推理模块避免了大多数自训练框架中严重依赖伪标签的现象,通过构建学生模型的自监督训练范式来提高学生模型自身的上下文推理能力。最后,通过外部上下文一致性推理模块构建了基于师生模型的自训练框架,利用教师模型具有全局先验知识的伪标签鼓励学生模型对于被掩码区域做出正确的预测。
-
公开(公告)号:CN118587341A
公开(公告)日:2024-09-03
申请号:CN202410682122.7
申请日:2024-05-29
Applicant: 杭州电子科技大学
IPC: G06T15/00 , G06T9/00 , G06N3/0455 , G06N3/048 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于位置编码增强的点云渲染方法、系统及设备。本发明在神经网络训练阶段需要与点云观察视角对齐的2D图片。在训练过程当中,首先对点云做位置编码。本发明使用超参网络和高斯采样来增强位置编码,之后再输入渲染网络得到最后结果。其中位置编码增强网络中的超参网络具体实现如下:首先将超参网络中的线性层Ⅰ视为低频段sin(wx+b)的ω和b;其次定义ReLU层中的激活函数;最后将超参网络中的线性层Ⅱ视为高频段sin(wx+b)的ω和b。本发明使得位置编码的过程参与神经网络整个可微过程的优化,从而生成更加准确和精细的渲染图像。
-
公开(公告)号:CN113361599B
公开(公告)日:2024-04-05
申请号:CN202110625964.5
申请日:2021-06-04
Applicant: 杭州电子科技大学
Abstract: 本发明属于视频处理、机器视觉技术领域,公开了一种基于感知特征参量度量的视频时域显著度度量方法,包括如下步骤:步骤1:视频时域运动信息的提取;步骤2:感知特征参量的度量及融合。本发明考虑了视频中五个影响HVS时域感知特性的参量,并分析它们的作用机理,提出相应的概率密度函数,使得能够定量度量这些参量导致的感知显著度与不确定度。本发明提出的利用感知信息论的方法来度量这些参量,将它们映射到统一尺度,解决了异质特征参量融合困难这一问题。本发明提出时域视觉感知显著度度量方法能够达到较好预期效果。
-
公开(公告)号:CN115222998A
公开(公告)日:2022-10-21
申请号:CN202211120458.1
申请日:2022-09-15
Applicant: 杭州电子科技大学 , 浙江大华技术股份有限公司
Inventor: 颜成钢 , 殷俊 , 颜拥 , 王洪波 , 胡冀 , 熊剑平 , 李亮 , 郑博仑 , 林聚财 , 孔书晗 , 王亚运 , 孙垚棋 , 金恒 , 朱尊杰 , 高宇涵 , 殷海兵 , 王鸿奎 , 陈楚翘 , 刘一秀 , 李文超 , 王廷宇 , 张勇东 , 张继勇
IPC: G06V10/764 , G06V10/30 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络;然后将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图;最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。本发明设计了一种新的多尺度自注意力机制,它利用一系列的深度可分离卷积操作,生成特征信息高度相关的局部特征图和区域特征图,不但可以强化自注意力机制的细粒度特征提取能力,还可以高效的提取有效的全局信息。
-
-
-
-
-
-
-
-
-