-
公开(公告)号:CN118968622A
公开(公告)日:2024-11-15
申请号:CN202411042568.X
申请日:2024-07-31
Applicant: 复旦大学
IPC: G06V40/20 , G06V20/52 , G06V10/764 , G06V10/80 , G06V10/82 , G06T7/246 , G06T7/73 , G06N3/045 , G06N3/0464 , G06N3/084
Abstract: 本发明提供了一种基于姿态追踪的行人异常行为识别方法及装置,具有这样的特征,行人异常行为识别模型包括:特征提取模块,用于对每个预处理图像,从该预处理图像中提取三个层级的特征;特征融合模块,用于将三个层级的特征进行融合,得到三个融合特征;行人姿态追踪模块,用于根据三个融合特征得到行人姿态估计数据;异常姿态分类模块,用于根据所有连续帧对应的行人姿态估计数据中各个行人的姿态估计图,得到对应的行人的行人异常行为识别结果。总之,本方法具有较好的泛化性和行人异常行为识别精确度。
-
公开(公告)号:CN114519880B
公开(公告)日:2024-04-05
申请号:CN202210120706.6
申请日:2022-02-09
Applicant: 复旦大学
IPC: G06V40/16 , G06V10/74 , G06V10/82 , G06N3/0895 , G06N3/0464
Abstract: 本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
-
公开(公告)号:CN114519880A
公开(公告)日:2022-05-20
申请号:CN202210120706.6
申请日:2022-02-09
Applicant: 复旦大学
Abstract: 本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
-
公开(公告)号:CN118942118A
公开(公告)日:2024-11-12
申请号:CN202411042566.0
申请日:2024-07-31
Applicant: 复旦大学
Abstract: 本发明提供了一种基于双框匹配的监控图像密集行人检测方法及装置,具有这样的特征,密集行人检测模型包括:特征提取模块,用于对归一化图像进行特征提取,得到三个不同尺度的特征;特征融合模块,用于将三个不同尺度的特征进行特征融合和卷积处理,得到三个融合特征;双分支检测头模块,用于对三个融合特征进行处理,在归一化图像的每个网格内生成两个行人检测框及对应的概率值;预测框提纯模块,用于对各个行人检测框进行位置修正,得到对应的修正行人检测框,行人检测结果为概率值大于预设的阈值的所有修正行人检测框。总之,本方法能够高效准确地识别监控图像中的密集行人,并具有强泛化性。
-
-
-