-
公开(公告)号:CN115222998B
公开(公告)日:2023-01-03
申请号:CN202211120458.1
申请日:2022-09-15
Applicant: 杭州电子科技大学 , 浙江大华技术股份有限公司
Inventor: 颜成钢 , 殷俊 , 颜拥 , 王洪波 , 胡冀 , 熊剑平 , 李亮 , 郑博仑 , 林聚财 , 孔书晗 , 王亚运 , 孙垚棋 , 金恒 , 朱尊杰 , 高宇涵 , 殷海兵 , 王鸿奎 , 陈楚翘 , 刘一秀 , 李文超 , 王廷宇 , 张勇东 , 张继勇
IPC: G06V10/764 , G06V10/30 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络;然后将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图;最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。本发明设计了一种新的多尺度自注意力机制,它利用一系列的深度可分离卷积操作,生成特征信息高度相关的局部特征图和区域特征图,不但可以强化自注意力机制的细粒度特征提取能力,还可以高效的提取有效的全局信息。
-
公开(公告)号:CN119884417A
公开(公告)日:2025-04-25
申请号:CN202510077986.0
申请日:2025-01-17
Applicant: 杭州电子科技大学
IPC: G06F16/783 , G06V20/40 , G06F18/25 , G06F18/22 , G06N3/045 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于层次化选择框架的视频问答建模方法,其特征在于,首先进行视频数据和文本数据预处理,得到视频片段特征、物体特征、物体特征、问题特征、问题词特征和候选答案特征作为视频问答模型的输入;根据时间跨度和空间跨度从大到小层次化地选择视频片段特征、视频帧特征和物体特征,然后与问题特征进行特征融合,实现对答案的预测。本发明方法可以和不同的预训练模型结合训练与微调,即插即用;能够层次化地选择与问题相关的视频片段、视频帧和物体特征,实现问题相关关键特征的提取,以及对无关冗余信息的过滤。
-
公开(公告)号:CN116863192A
公开(公告)日:2023-10-10
申请号:CN202310448412.0
申请日:2023-04-24
Applicant: 杭州电子科技大学丽水研究院
IPC: G06V10/764 , G06V10/766 , G06V10/40 , G06V10/82 , G06V10/774 , G06V10/10 , G06N3/0464 , G06N3/045 , G06N3/08
Abstract: 本发明公开了一种基于深度先验的深度估计空间划分优化方法,首先获取RGB图及对应的稀疏深度图,通过轻量化特征提取模块处理稀疏深度图,获得空间划分结果;再通过深度估计网络进行概率预测;最后将得到的空间划分结果和概率结合起来得到最终的深度图。本发明相较于传统的分类‑回归类单目深度估计方法增加了基于稀疏深度图的引导,在一定程度上提升了深度空间划分的质量,达到使深度估计结果更加准确的效果。
-
公开(公告)号:CN115511914A
公开(公告)日:2022-12-23
申请号:CN202211215389.2
申请日:2022-09-30
Applicant: 杭州电子科技大学
IPC: G06T7/246 , G06V10/762 , G06N3/04 , G06N3/08
Abstract: 本发明公开了基于YOLO算法和PID算法的鸟类摄影云台控制方法,首先准备包含各类鸟类的照片数据并进行标注,通过标注好的照片数据对YOLOv5网络模型进行训练,在现有摄影云台的主控芯片上加载训练好的网络模型;通过网络模型对图像进行检测有无鸟类。对比鸟类中心坐标和图像中心的坐标,若有偏差,则转动舵机,使得相机追踪鸟类,相机转动角度用PID算法来优化,并保存图像。本发明针对于特定的摄影环境和摄影对象,旨在帮助摄影师更好的追踪和捕捉鸟类,本发明在传统的云台控制算法上,融入了人工智能相关算法,在保证预测准确度的同时,也要充分考虑芯片性能以保证算法运行和算法推理运算速度。
-
-
-