-
公开(公告)号:CN118781553B
公开(公告)日:2024-11-29
申请号:CN202411274223.7
申请日:2024-09-12
Applicant: 南京信息工程大学
IPC: G06V20/52 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于双分支时空交互网络的视频人群计数方法,包括步骤:通过随机剪裁和水平翻转,对连续的训练视频帧进行数据增强;构建由编码器、解码器和融合网络组成的双分支时空交互网络;编码器包括一个ConvNeXt‑2D模型、一个ConvNeXt‑3D模型和一个时空全连接聚合;解码器通过集成多个通道交叉注意力模块和转置卷积在多个尺度上实现2D空间特征和3D时空特征的交互,并分别生成ConvNeXt‑2D模型和ConvNeXt‑3D模型的人群密度图;融合网络通过融合两模型的人群密度图来输出最终融合的人群密度图;对双分支时空交互网络进行训练后,保存最优模型。本发明能够更准确地估计视频帧包含的人数。
-
公开(公告)号:CN119458333A
公开(公告)日:2025-02-18
申请号:CN202411641512.6
申请日:2024-11-18
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于ROS的智能路径规划与货物侧投方法及智能小车,首先打印带摄像头的下吸式吸盘支架安装于智能小车机械臂末端;使用基于Dijkstra的全局路径和TEB的局部路径导航智能小车至分拣台进行平行矫正使其与分拣台平行;若智能小车机械臂臂展长度小于所需抓取伸展距离,对小车位姿进行类三角路径规划矫正;控制机械臂朝特定角度伸出特定距离进行偏转角度抓取,利用基于深度神经网络的二维码增强与识别算法进行货物二维码两阶段识别;最后根据所有货物投递位置,规划最优导航路径并判断侧向投递方向,实现目标货物抓取和投放。本发明方法优化了货物抓取过程的精度和效率,有效提升了智能路径规划与货物侧投方法的整体性能。
-
公开(公告)号:CN115761895A
公开(公告)日:2023-03-07
申请号:CN202211513258.2
申请日:2022-11-29
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于帧序列顺序感知编码的视频动作分割与识别方法,其中,分割方法包括:提取给定视频的特征向量,并对特征向量进行编码,获得给定视频的运动特征;基于给定视频的运动特征,进行编码矩阵学习,获得给定视频的编码矩阵;基于给定视频的编码矩阵,构建亲和度图;基于亲和度图,完成给定视频的动作分割,得到给定视频的动作片段。识别方法包括基于上述的分割方法,将待识别视频分割为若干动作片段;将每个动作片段的特征输入至预训练的分类器中;根据每个动作片段所属类别的概率,分配动作标签。本发明不仅能够充分编码视频的运动特征和帧序列顺序信息,并且能够克服视频中噪声的影响准确分割动作片段并识别其类别。
-
公开(公告)号:CN119494834A
公开(公告)日:2025-02-21
申请号:CN202510055720.6
申请日:2025-01-14
Applicant: 南京信息工程大学
IPC: G06T7/00 , G06V10/44 , G06V10/764 , G06V10/77 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种像素级钢材表面缺陷检测与分类方法,包括以下步骤:(1)获取多张历史钢材表面缺陷图像及其对应的掩码图像以及实测的钢材表面缺陷图像;(2)构建改进的#imgabs0#深度学习模型包括Backbone层、侧输出层Side、上采样层和Outconv层;(3)采用多张钢材表面缺陷图像及其对应的掩码图像对改进的#imgabs1#深度学习模型进行训练,得到基于改进的#imgabs2#钢材表面缺陷检测与分类模型;(4)采用基于改进的#imgabs3#钢材表面缺陷检测与分类模型对多张实测钢材表面缺陷图像进行钢材表面缺陷检测与分类;本发明提高了检测和分类的准确性。
-
公开(公告)号:CN118781553A
公开(公告)日:2024-10-15
申请号:CN202411274223.7
申请日:2024-09-12
Applicant: 南京信息工程大学
IPC: G06V20/52 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于双分支时空交互网络的视频人群计数方法,包括步骤:通过随机剪裁和水平翻转,对连续的训练视频帧进行数据增强;构建由编码器、解码器和融合网络组成的双分支时空交互网络;编码器包括一个ConvNeXt‑2D模型、一个ConvNeXt‑3D模型和一个时空全连接聚合;解码器通过集成多个通道交叉注意力模块和转置卷积在多个尺度上实现2D空间特征和3D时空特征的交互,并分别生成ConvNeXt‑2D模型和ConvNeXt‑3D模型的人群密度图;融合网络通过融合两模型的人群密度图来输出最终融合的人群密度图;对双分支时空交互网络进行训练后,保存最优模型。本发明能够更准确地估计视频帧包含的人数。
-
-
-
-