-
公开(公告)号:CN119314224A
公开(公告)日:2025-01-14
申请号:CN202411337275.4
申请日:2024-09-25
Applicant: 重庆邮电大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06V10/80 , G06N3/0464 , G06N3/045 , G06N3/0985
Abstract: 本发明涉及一种基于小样本学习的第一人称行为识别方法和装置,包括遵循小样本学习设置,通过第一人称视频样本构建元训练任务和元测试任务;利用元训练任务对第一人称行为识别模型进行元训练,其中,所述第一人称行为识别模型包括:特征提取模块和集合匹配度量模块;所述特征提取模块用于提取第一人称视频样本的多尺度视频特征;所述集合匹配度量模块用于根据第一人称视频样本的多尺度视频特征计算查询集中第一人称视频样本和支持集的匹配分数,并根据匹配分数识别用户的行为类别;利用训练好的第一人称行为识别模型对元测试任务进行用户行为识别,本发明能够提高模型的泛化能力和识别准确率,减小模型训练的计算量。
-
公开(公告)号:CN119580350A
公开(公告)日:2025-03-07
申请号:CN202411616016.5
申请日:2024-11-13
Applicant: 重庆邮电大学
IPC: G06V40/20 , G06V10/143 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种基于基础模型和竞争性选择的双模态行为识别方法,包括:针对用户在同一场景下的红外图片序列和可见光图片序列,采用竞争机制动态地生成红外图片和可见光图片的掩码信息,并将图像被掩码的位置记录下来作为掩码标记,未被掩码的位置作为可见标记;根据图像被掩码和未被掩码的位置将红外图片序列和可见光图片序列及其对应的掩码信息分别对应输入红外编码器和可见光编码器,提取相应的模态特征;将编码后得到的模态特征馈送到层级掩码融合模块,结合图像被掩码和未被掩码的位置计算得到融合特征,并将融合特征馈送到分类器计算对应场景下用户的行为类别,本发明能够提高行为识别任务的高效性与准确性。
-
公开(公告)号:CN119152576A
公开(公告)日:2024-12-17
申请号:CN202411307539.1
申请日:2024-09-19
Applicant: 重庆邮电大学
IPC: G06V40/20 , G06V20/70 , G06V10/80 , G06V10/62 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N5/022 , G06N3/084 , G06N3/045
Abstract: 本发明属于图像处理与计算机视觉技术领域,涉及一种基于视觉语言模型和图卷积的第一人称行为识别方法,包括获取图像组数据集及其对应的标签提示词数据集;将标签提示词数据集、图像组数据集分别输入视觉语言模型CLIP的文本编辑器、视觉编辑器,得到文本特征集和视觉特征集;采用图卷积网络获取对偶融合知识图;对图像组数据集进行形状重塑后输入视觉编辑器得到重塑视觉特征;对重塑视觉特征进行形状重塑后输入时序融合模型得到时间视觉特征;将时间视觉特征与对偶融合知识图融合得到识别结果,根据识别结果计算损失反向传播训练;构建第一人称行为识别模型;采用第一人称行为识别模型进行识别;能够实现精确的行为识别。
-
-