-
公开(公告)号:CN114048818B
公开(公告)日:2024-12-17
申请号:CN202111358049.0
申请日:2021-11-16
Applicant: 浙江工商大学
IPC: G06V10/764 , G06V10/774
Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。
-
公开(公告)号:CN117593662A
公开(公告)日:2024-02-23
申请号:CN202311688845.X
申请日:2023-12-11
Applicant: 浙江工商大学
Abstract: 本发明公开了一种基于遥感图像军用飞机目标检测方法及装置,包括以下步骤:(1)获取遥感军用飞机的图像数据,对所有的图像数据标注飞机位置及其类别;(2)构建基于改进YOLOV5的目标检测模型,具体改进为:使用几何、颜色变换等数据增强策略扩充训练数据集的规模;在原模型的Conv结构上新增一条卷积分支,并在推理模型中将分支以及归一层和激活函数进行合并;在原模型中增加一个SO模块;(3)对目标检测模型进行迭代训练;(4)将待检测的图像或视频流数据输入训练好的目标检测模型中,得到军用飞机的预测结果。利用本发明,可以减少推理模型的计算量,在不影响检测精度的前提下提高检测速度。
-
公开(公告)号:CN119603502A
公开(公告)日:2025-03-11
申请号:CN202411727463.8
申请日:2024-11-28
IPC: H04N21/44 , H04N21/854
Abstract: 本发明公开了一种基于关系感知的视频时序定位方法及装置,本发明首先利用预训练的视频编码器和文本编码器对视频和文本进行特征提取,并将其映射到公共特征空间。随后,通过模态内的信息交互生成富含上下文的特征序列。接着,通过单词级特征融合模块进行模态间信息交互。在此基础上,使用前景帧探测器和关系信号生成器,分别计算视频与文本之间的细粒度和粗粒度相关性分数。接着,多粒度判别器将这两类相关性进行综合,生成多粒度相关性分数,用于提供相关性反馈。最后通过关系感知的片段预测头,在视频时序定位的过程中引入相关反馈,使模型能够应对视频中可能不存在相关片段的情况。
-
公开(公告)号:CN114659530B
公开(公告)日:2025-02-14
申请号:CN202210242363.0
申请日:2022-03-11
Applicant: 浙江工商大学
IPC: G01C21/32
Abstract: 本发明提供一种用于智能机器人路径规划的正六边形网格模型地图构建方法,包括:根据预设网格尺寸结合地图数据将视觉范围内平面区域剖分为多个无缝连接的、不重叠的正六边形空白基础网格;获取各空白基础网格的点云数据,结合地图数据赋予各空白基础网格地形特征、格元属性及格边属性得到基础网格,形成覆盖平面区域的网格模型,确定机器人及激光点在网格模型中的坐标,计算激光点所在基础网格的概率估计值,确定网格处于占据状态或空闲状态;更新机器人所在基础网格与激光点所在基础网格之间的其他基础网格的状态;根据各基础网格的状态对所在环境的网格模型进行增量建图。该方法获得的地图可以应用于智能机器人的地图构建和路径规划中。
-
公开(公告)号:CN113674412B
公开(公告)日:2023-08-29
申请号:CN202110924699.0
申请日:2021-08-12
Applicant: 浙江工商大学
Abstract: 本发明提供一种基于位姿融合优化的室内地图构建方法、系统及存储介质,所述方法包括:根据KINECT和IMU获取的实时数据解算机器人的位姿数据;根据IMU的线加速度数据和里程计数据判断机器人的当前运动状态;若机器人处于静止状态,则采用扩展卡尔曼滤波算法对所述位姿数据进行融合处理,若机器人处于运动状态,则采用动态加权方法对所述位姿数据进行融合处理;根据融合处理结果构建室内地图。该方法具有更高的位姿估计精度、更高的二维地图建模精度以及更优的建模效果,能够应用于贫特征、高动态、弱光影的场景中。
-
公开(公告)号:CN114048818A
公开(公告)日:2022-02-15
申请号:CN202111358049.0
申请日:2021-11-16
Applicant: 浙江工商大学
IPC: G06K9/62 , G06V10/764 , G06V10/774
Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。
-
公开(公告)号:CN119691224A
公开(公告)日:2025-03-25
申请号:CN202411645309.6
申请日:2024-11-18
Applicant: 浙江工商大学
IPC: G06F16/783 , G06F16/78 , G06F16/75 , G06V10/764 , G06V10/82 , G06V10/44 , G06N3/0464 , G06N3/048 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于大语言模型优化的多模态视频问答方法及装置,本发明采用了CoVGT基础框架,分别对视频特征提取和文本输入进行了优化,并添加了视频问答模型输出优化器,该方法包括视频特征提取、文本特征提取、特征融合、初步答案预测、相关样例生成、Prompt文本生成和最终答案生成。本发明用GPT‑3类比中学习的特性,使用相关样例生成、Prompt文本生成和最终答案生成设计了答案优化器,与基础模型相比,模型准确率有较大的提升。
-
公开(公告)号:CN113920164B
公开(公告)日:2024-05-24
申请号:CN202111252678.5
申请日:2021-10-27
Applicant: 浙江工商大学
IPC: G06T7/246 , G06V10/764 , G06V10/82 , G06V40/20 , G06N3/045 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种剧场环境下基于近红外防伪油墨的演员身份重识别方法。该方法通过近红外相机获取彩色相机中不可见的近红外防伪油墨标记,然后将图像送入训练好的检测器与分类器中,最终实现对舞台上表观相似演员跟踪时的身份重识别。本方法用仅近红外相机可见的近红外防伪油墨标记替代已有的演员表观信息或传感器作为区分演员身份的关键特征,具有以下优势:极大程度减少了舞台复杂光照对演员跟踪过程中身份识别稳定性的干扰,以及通过引入特有近红外防伪油墨标记信息解决了演员表观相似所带来的跟踪困难问题。与基于传感器的身份识别方法相比,该方法成本低,操作性强,在舞台演出中具有普遍的适用性。
-
公开(公告)号:CN114817627A
公开(公告)日:2022-07-29
申请号:CN202210425802.1
申请日:2022-04-21
Applicant: 浙江工商大学
IPC: G06F16/73 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多面视频表示学习的文本到视频的跨模态检索方法,该方法包括:获取视频和文本初步特征;使用视频分镜工具将视频初始帧按照不同场景进行分组后,输入显示编码分支进行显式编码,得到视频不同场景的显式多面表示;将视频初始特征输入到隐式编码分支,通过前导特征多重注意力网络对视频初始特征进行隐式编码,获得表达视频不同语义内容的隐式多面表示;将两分支的多面编码相互融合得到多面视频特征表示;将多面视频特征表示和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两模态之间相关度,以端到端的方式训练模型,实现文本到视频的跨模态检索。本发明方法利用视频多面表示思想,提高了检索性能。
-
公开(公告)号:CN113674412A
公开(公告)日:2021-11-19
申请号:CN202110924699.0
申请日:2021-08-12
Applicant: 浙江工商大学
Abstract: 本发明提供一种基于位姿融合优化的室内地图构建方法、系统及存储介质,所述方法包括:根据KINECT和IMU获取的实时数据解算机器人的位姿数据;根据IMU的线加速度数据和里程计数据判断机器人的当前运动状态;若机器人处于静止状态,则采用扩展卡尔曼滤波算法对所述位姿数据进行融合处理,若机器人处于运动状态,则采用动态加权方法对所述位姿数据进行融合处理;根据融合处理结果构建室内地图。该方法具有更高的位姿估计精度、更高的二维地图建模精度以及更优的建模效果,能够应用于贫特征、高动态、弱光影的场景中。
-
-
-
-
-
-
-
-
-