-
公开(公告)号:CN118038550B
公开(公告)日:2024-12-13
申请号:CN202410162481.X
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06V10/80 , G06V20/40 , G06N3/0464 , G06N3/08 , G06V10/764 , G06F17/16 , G06F17/18
Abstract: 本发明提供一种基于ViT和ST‑GCN的红外人体行为识别方法,其包括获取红外视频数据;构建Lite‑ViTAPose姿态估计模块,利用Lite‑ViTAPose姿态估计模块提取红外视频中每一帧的人体姿态,将提取到的人体姿态经过处理、转换形成骨骼序列,作为网络输入;其中,Lite‑ViTAPose姿态估计模块包括基于多尺度特征融合的MobileViT模块和基于残差双头注意力机制的多人姿态估计器DAs‑MPPE;构建2s‑ViTGCN行为估计模块,基于输入的骨骼序列,利用2s‑ViTGCN提取该骨骼序列的时空特征,从而识别出人体的动作;其中,2s‑ViTGCN行为估计模块包括双流神经网络、ViTGCN块以及ViTGCN层。本发明将Lite‑ViTAPose模块和2s‑ViTGCN行为估计模块结合进行红外人体行为识别,有效克服了现有红外人体行为识别技术中存在的弊端。
-
公开(公告)号:CN117149944B
公开(公告)日:2024-04-23
申请号:CN202310985679.3
申请日:2023-08-07
Applicant: 北京理工大学珠海学院
IPC: G06F16/33 , G06F16/34 , G06F40/289 , G06F40/30 , G06V20/62 , G06F16/783 , G06F18/24 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于宽时间范畴的多模态情境情感识别方法及系统,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于BERT模型对视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过多模态多分支融合模型得到最终的情感识别结果。本发明用于解决现有的多模态情感识别技术存在的仅针对当前时刻包含的信息进行情感挖掘、不能有效区分出对情感状态有影响的区域、跨模态不一致以及跨模态不平衡等的技术问题,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统的目的。
-
公开(公告)号:CN117877122A
公开(公告)日:2024-04-12
申请号:CN202410162484.3
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06T3/4053 , G06V10/764 , G06V10/774 , G06V10/80 , G06T3/4038 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 本发明提供一种基于轻量型ViT和注意力机制的红外人体姿态估计方法,其包括获取红外图像数据;构建MSF‑MobileViT网络模型,通过MSF‑MobileViT网络模型提取得到红外图像数据的高分辨率且语义信息丰富的特征表示;构建DAs‑MPPE网络模型,通过DAs‑MPPE网络模型生成L来编码肢体之间的关联度,再生成S来预测关节点的位置;在两个网络模型的协同训练过程中,采用一致性和置信度评估两种评估标准,多次输出选取可信度高的无标签数据纳入对方网络的训练集中,稳定的选取无标签数据添加伪标签。本发明将MSF‑MobileViT网络模型和DAs‑MPPE网络模型结合进行红外人体姿态估计,从而定位图像中所有人的关节点和肢体位置,有效克服了现有红外人体行为识别技术中存在的弊端。
-
公开(公告)号:CN118351670B
公开(公告)日:2025-01-03
申请号:CN202410619600.X
申请日:2024-05-20
Applicant: 北京理工大学珠海学院 , 北京理工大学
Abstract: 本发明涉及电子围栏预警领域,公开了一种基于电子围栏的区域安防预警系统,电子围栏配置模块,用于设置第一电子围栏和第二电子围栏数字边界;并划分多个安全区域;多个无人机管理模块,用于管理无人机数据;密钥生成模块,用于随机生成密钥;解密模块,用于获取相应指令;监测模块,用于获取采样数据;围栏分析模块,用于对密钥和采样数据进行分析,分析是否允许进入目标区域;预警模块,用于发出预警;通过每个安全区域对应的解密方式不同,无人机的相应指令对应其安全区域,因此当无人机执行相应指令,能判断无人机对应安全区域,通过调取对应的无人机管理模块可判断该无人机是否允许通行,缩短识别时间,且提高安全性。
-
公开(公告)号:CN118351670A
公开(公告)日:2024-07-16
申请号:CN202410619600.X
申请日:2024-05-20
Applicant: 北京理工大学珠海学院 , 北京理工大学
Abstract: 本发明涉及电子围栏预警领域,公开了一种基于电子围栏的区域安防预警系统,电子围栏配置模块,用于设置第一电子围栏和第二电子围栏数字边界;并划分多个安全区域;多个无人机管理模块,用于管理无人机数据;密钥生成模块,用于随机生成密钥;解密模块,用于获取相应指令;监测模块,用于获取采样数据;围栏分析模块,用于对密钥和采样数据进行分析,分析是否允许进入目标区域;预警模块,用于发出预警;通过每个安全区域对应的解密方式不同,无人机的相应指令对应其安全区域,因此当无人机执行相应指令,能判断无人机对应安全区域,通过调取对应的无人机管理模块可判断该无人机是否允许通行,缩短识别时间,且提高安全性。
-
公开(公告)号:CN118052709A
公开(公告)日:2024-05-17
申请号:CN202410162529.7
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06T3/4053 , G06V10/80 , G06V10/764 , G06V10/74 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种基于预训练深度神经网络的单输入高分辨率红外图像真彩转换方法及系统,包括:将高分辨率红外图像和目标域可见光图像单输入到真彩转换模型中;将预先训练的DINO‑ViT模型作为外部语义先验,通过深层注意力模块中键向量的自相似性来表示结构,通过CLS令牌表示全局外观;通过让生成器生成的可见光图像与目标域可见光图像的CLS令牌相匹配,使可见光图像和目标域可见光图像在外观上相一致;通过减小转换前后图像中键向量的自相似性差异,使可见光图像和输入的红外图像在空间结构上相一致,完成高分辨率红外图像真彩转换。本发明达到实现高分辨率红外图像的真彩转换,提高红外图像彩色化效果,并拓宽应用场景的目的。
-
公开(公告)号:CN118097241A
公开(公告)日:2024-05-28
申请号:CN202410162530.X
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V10/764 , G06T3/4053 , G06V10/762 , G06N3/0464 , G06N3/0455 , G06N3/0475 , G06N3/088
Abstract: 本发明公开了一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统,包括:将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;通过生成器根据输入的红外图像重建出对应的可见光图像;利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出。本发明达到降低模型的复杂性并提高收敛性、扩大研究场景以及实现高分辨红外图像真彩转换的目的。
-
公开(公告)号:CN117149944A
公开(公告)日:2023-12-01
申请号:CN202310985679.3
申请日:2023-08-07
Applicant: 北京理工大学珠海学院
IPC: G06F16/33 , G06F16/34 , G06F40/289 , G06F40/30 , G06V20/62 , G06F16/783 , G06F18/24 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于宽时间范畴的多模态情境情感识别方法及系统,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于BERT模型对视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过多模态多分支融合模型得到最终的情感识别结果。本发明用于解决现有的多模态情感识别技术存在的仅针对当前时刻包含的信息进行情感挖掘、不能有效区分出对情感状态有影响的区域、跨模态不一致以及跨模态不平衡等的技术问题,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统的目的。
-
公开(公告)号:CN117877122B
公开(公告)日:2024-12-17
申请号:CN202410162484.3
申请日:2024-02-05
Applicant: 北京理工大学珠海学院
IPC: G06V40/20 , G06T3/4053 , G06V10/764 , G06V10/774 , G06V10/80 , G06T3/4038 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 本发明提供一种基于轻量型ViT和注意力机制的红外人体姿态估计方法,其包括获取红外图像数据;构建MSF‑MobileViT网络模型,通过MSF‑MobileViT网络模型提取得到红外图像数据的高分辨率且语义信息丰富的特征表示;构建DAs‑MPPE网络模型,通过DAs‑MPPE网络模型生成L来编码肢体之间的关联度,再生成S来预测关节点的位置;在两个网络模型的协同训练过程中,采用一致性和置信度评估两种评估标准,多次输出选取可信度高的无标签数据纳入对方网络的训练集中,稳定的选取无标签数据添加伪标签。本发明将MSF‑MobileViT网络模型和DAs‑MPPE网络模型结合进行红外人体姿态估计,从而定位图像中所有人的关节点和肢体位置,有效克服了现有红外人体行为识别技术中存在的弊端。
-
公开(公告)号:CN117633587B
公开(公告)日:2024-12-06
申请号:CN202311573437.X
申请日:2023-11-23
Applicant: 北京理工大学珠海学院
IPC: G06F18/24 , G10L25/63 , G10L25/30 , G10L25/18 , G06F18/25 , G06N20/00 , G06N3/045 , G06N3/0464 , G06N3/048
Abstract: 本发明公开涉及基于迁移学习的音频和文本的宽时间范畴情感识别方法,通过使用预训练模型VGGish和BERTbase提取音频和文本两个模态的情感特征,从不同的角度对目标人物的情感进行分析;通过事实描述和文本描述进行情感特征的提取,在宽时间范畴内对目标人物目前的情感状态进行更准确的推理,通过在SVCEmotion数据集的音频和文本描述数据上的实验证明,VGGish和BERTbase预训练模型均能在本文使用的数据集上实现良好的效果,模型在预训练过程中学习到的参数能够有效的提升其在目标任务上的表现;对比实验证明,SVCEmotion数据集中针对宽时间范畴下的情感识别任务引入的情境描述可以为情感识别提供线索,且与事实描述结合能大幅提升情感识别效果。
-
-
-
-
-
-
-
-
-