一种基于ViT和ST-GCN的红外人体行为识别方法

    公开(公告)号:CN118038550B

    公开(公告)日:2024-12-13

    申请号:CN202410162481.X

    申请日:2024-02-05

    Abstract: 本发明提供一种基于ViT和ST‑GCN的红外人体行为识别方法,其包括获取红外视频数据;构建Lite‑ViTAPose姿态估计模块,利用Lite‑ViTAPose姿态估计模块提取红外视频中每一帧的人体姿态,将提取到的人体姿态经过处理、转换形成骨骼序列,作为网络输入;其中,Lite‑ViTAPose姿态估计模块包括基于多尺度特征融合的MobileViT模块和基于残差双头注意力机制的多人姿态估计器DAs‑MPPE;构建2s‑ViTGCN行为估计模块,基于输入的骨骼序列,利用2s‑ViTGCN提取该骨骼序列的时空特征,从而识别出人体的动作;其中,2s‑ViTGCN行为估计模块包括双流神经网络、ViTGCN块以及ViTGCN层。本发明将Lite‑ViTAPose模块和2s‑ViTGCN行为估计模块结合进行红外人体行为识别,有效克服了现有红外人体行为识别技术中存在的弊端。

    一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统

    公开(公告)号:CN118097241A

    公开(公告)日:2024-05-28

    申请号:CN202410162530.X

    申请日:2024-02-05

    Abstract: 本发明公开了一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统,包括:将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;通过生成器根据输入的红外图像重建出对应的可见光图像;利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出。本发明达到降低模型的复杂性并提高收敛性、扩大研究场景以及实现高分辨红外图像真彩转换的目的。

    基于迁移学习的音频和文本的宽时间范畴情感识别方法

    公开(公告)号:CN117633587B

    公开(公告)日:2024-12-06

    申请号:CN202311573437.X

    申请日:2023-11-23

    Abstract: 本发明公开涉及基于迁移学习的音频和文本的宽时间范畴情感识别方法,通过使用预训练模型VGGish和BERTbase提取音频和文本两个模态的情感特征,从不同的角度对目标人物的情感进行分析;通过事实描述和文本描述进行情感特征的提取,在宽时间范畴内对目标人物目前的情感状态进行更准确的推理,通过在SVCEmotion数据集的音频和文本描述数据上的实验证明,VGGish和BERTbase预训练模型均能在本文使用的数据集上实现良好的效果,模型在预训练过程中学习到的参数能够有效的提升其在目标任务上的表现;对比实验证明,SVCEmotion数据集中针对宽时间范畴下的情感识别任务引入的情境描述可以为情感识别提供线索,且与事实描述结合能大幅提升情感识别效果。

Patent Agency Ranking