-
公开(公告)号:CN111563417B
公开(公告)日:2023-03-21
申请号:CN202010284959.8
申请日:2020-04-13
Applicant: 华南理工大学
IPC: G06V40/16 , G06V10/82 , G06V10/774 , G06V10/764
Abstract: 本发明涉及一种基于金字塔结构卷积神经网络的人脸表情识别方法,包括:S1,获取图像数据集并构建图像数据列表;S2,对图像数据集中的原始图片进行人脸识别得到人脸框位置信息、关键点位置信息和仅包含面部的参考人脸数据,所述关键点包括鼻子、眼睛和嘴巴;S3,利用关键点位置信息对仅包含面部的参考人脸数据进行预处理,同时利用关键点位置信息作为先验合成手动掩码;S4,将手动掩码和自动掩码结合后赋予特征图不同区域以相应权重,输出优化后的特征。本发明中手动注意力模型与自动注意力模型相结合,更加注重表情细节特征,这样能解决了表情类别相近、表情强度低导致识别率低的问题,使微弱表情、易混淆表情识别的准确率更加高。
-
公开(公告)号:CN115223222A
公开(公告)日:2022-10-21
申请号:CN202210813812.2
申请日:2022-07-12
Applicant: 华南理工大学
IPC: G06V40/16 , G06V10/774 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种提高计算机视觉模型泛化能力的方法、装置及存储介质,其中方法包括:获取计算机视觉任务数据集,将数据集按来源划分为S个源域数据集和一个目标域数据集;构建骨干网络并对骨干网络进行初始化;构建S个记忆库并对记忆库进行初始化;构建风格化模块,将风格化模块部署到骨干网络中,采用风格交替学习策略对骨干网络进行训练;在测试过程中,关闭风格化模块,采用训练后的骨干网络在目标域数据集上进行测试。本发明在骨干网络中部署有一个风格化模块,能够改变输入特征的风格;通过不断改变保存在记忆库中特征的风格避免让骨干网络在训练时过拟合到源域的风格中,拥有更好的泛化能力,可广泛应用于图像处理与识别技术领域。
-
公开(公告)号:CN109993070A
公开(公告)日:2019-07-09
申请号:CN201910186858.4
申请日:2019-03-13
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于全局距离尺度损失函数的行人再识别方法,具体步骤包括:对行人再识别数据集的训练数据进行数据增强处理;对每一个批量数据进行随机挑选;构建基于人体组件的深度神经网络并对网络进行初始化;使用交叉熵损失函数和基于全局距离尺度的损失函数同时监督深度神经网络的训练;对目标行人图像及行人图像库中的行人图像分别进行特征提取,进行余弦相似度计算并排序得到识别结果。本发明提出了一种基于统计特性的全局距离尺度的损失函数,能够有效避免噪声干扰和降低过拟合的风险,提高模型鲁棒性和泛化能力。
-
公开(公告)号:CN118053203A
公开(公告)日:2024-05-17
申请号:CN202410212215.3
申请日:2024-02-27
Applicant: 华南理工大学
IPC: G06V40/20 , G06V10/25 , G06V10/764 , G06V10/766 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0499 , G06N3/09 , G06N3/096
Abstract: 本发明公开了一种人与物体交互检测预训练方法,该方法包括下述步骤:分别获取目标检测和动作识别的数据集,对数据集进行增强处理;构建预训练网络并对预训练网络进行初始化,预设损失函数,基于损失函数监督预训练网络的目标检测网络和动作识别网络的输出;使用训练完成的预训练网络参数作为人与物体交互检测网络的初始化权重。本发明基于解耦思想,通过将预训练过程解耦为人与物体交互检测中的两个子任务,从而可以获得大量已有标注信息的数据用来进行预训练,两个子任务都可以受益于干净的标注信息,在微调后能显著提高人与物体交互检测的准确度。
-
公开(公告)号:CN116363346A
公开(公告)日:2023-06-30
申请号:CN202310307324.9
申请日:2023-03-27
Applicant: 华南理工大学
IPC: G06V10/22 , G06V10/764 , G06V10/82 , G06V10/774 , G06V10/44 , G06V10/42 , G06N3/08 , G06N3/0464 , G06N3/0499
Abstract: 本发明公开了一种基于解耦合多头注意力机制的人与物体关系检测方法。所述方法包括以下步骤:获取人与物体关系检测数据集,并对其中划分的训练集进行数据增强处理;构建基于Transformer的检测网络并对检测网络进行初始化;对标注的位置标签进行增强处理,构建网络得到标注人物对的查询矩阵;对检测网络中Transformer关系解码器里的注意力图进行全局和局部特征的提取;在训练中使用预定义的损失函数监督可学习的查询矩阵和标注人物对的查询矩阵的输出;采用训练后的可学习的查询矩阵获取人与物体关系的检测结果。本发明大大提升了网络的人与物体关系检测性能,可广泛应用于图像处理与识别技术领域。
-
公开(公告)号:CN109785258B
公开(公告)日:2022-12-16
申请号:CN201910021782.X
申请日:2019-01-10
Applicant: 华南理工大学
Abstract: 本发明公开的一种基于多判别器生成对抗网络的人脸图像修复方法,包括以下步骤:(1)将公开的人脸图像数据库中的图像进行预处理,并输入到生成器中得到生成图像;(2)将真实图像和生成图像输入到多个判别器中得到反馈值;(3)将多个判别器的反馈值作为对抗损失,同时结合感知损失和重建损失对生成对抗网络进行对抗训练;(4)将缺失的人脸图像输入到训练好的生成器中得到修复的人脸图像。本发明针对有遮挡或损坏的人脸图像修复问题,采用具有多判别器的生成对抗网络结构,解决了修复图像真实度低的问题,使修复后的图像更加自然、更加真实。
-
公开(公告)号:CN114881105A
公开(公告)日:2022-08-09
申请号:CN202210309836.4
申请日:2022-03-28
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于transformer模型和对比学习的睡眠分期方法及系统,该方法步骤包括:生理信号数据预处理,进行数据帧的合并,划分数据集,进行数据增强处理并将transformer模型初始化;构建基于transformer的睡眠分期特征提取神经网络,利用自监督对比学习方法,建立损失函数和反向传播模型,对睡眠分期特征提取网络进行预训练,在预训练的睡眠分期特征提取网络的后端加入全连接网络进行有监督训练;在有监督训练睡眠分期特征提取网络的后端再加入双向长短时记忆网络进行有监督训练;训练获得睡眠分期模型,将测试数据集输入训练后的睡眠分期模型得到分类结果。本发明对睡眠分期的准确率有所提升。
-
公开(公告)号:CN114764899A
公开(公告)日:2022-07-19
申请号:CN202210379370.5
申请日:2022-04-12
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于transformer第一视角下的下一个交互物体预测方法,该方法的步骤包括:使用slowfast网络在第一视角视频上对当前视频片段的交互物体进行识别训练,提取已观察视频特征并进行标准化;将待预测视频特征初始化为可训练的参数;将已观察视频特征与待预测视频特征进行拼接;将拼接后特征作为transformer网络输入,分类已观察视频和待预测视频的所有交互物体,达到对下一个交互物体预测的粗分类;将通过transformer网络后的待预测视频特征进行时间最大值池化;池化后的待预测视频特征经过全连接层得到下一个交互物体的预测。本发明解决在预测下一个交互物体的时候忽视预测间隔特征的问题,使得下一个交互物体预测的性能得到提高。
-
公开(公告)号:CN113076905A
公开(公告)日:2021-07-06
申请号:CN202110409400.8
申请日:2021-04-16
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于上下文交互关系的情绪识别方法,该方法步骤包括:将表情数据集通过人脸检测和人体识别得到人脸和身体的边界框;利用人脸和身体的边界框对图片进行预处理,同时将边界框生成空间掩码,得到人脸、身体和场景三类图片;将预处理图像分别输入至预训练的三个支路网络提取特征,其中上下文交互模块插入到网络的第二层和第四层,在交互模块中其余支路的特征加权融合到各个支路上;分别联合人脸情绪特征、身体情绪特征和场景情绪特征进行表情分类,形成基于上下文交互关系的情绪识别模型。本发明提升了上下文的特征表达能力和抑制上下文存在的噪声,解决了独立提取上下文特征时的情绪不确定性和噪声的问题,使情绪识别的准确率更高。
-
公开(公告)号:CN111931638A
公开(公告)日:2020-11-13
申请号:CN202010789567.7
申请日:2020-08-07
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于行人重识别的局部复杂区域定位系统及方法,该方法步骤为:用户端向服务器端发送待寻找的目标图像;摄像头单元采集各个监控区域的图像,并与自身编号发送至服务器端;构建摄像头单元信息表;对图像信息进行图像分割,筛选出符合行人类别的目标,并根据边界框选取感兴趣区域;感兴趣区域与目标图像输入到深度学习网络中进行特征提取及特征匹配,获取目标图片;获取拍摄到目标图片对应的摄像头单元编号,对照摄像头单元信息表,获取摄像头单元的安装位置,并结合目标感兴趣区域在整个图片中的位置,将目标位置进行可视化显示。本发明实现对场景复杂尤其是有多层结构的局部区域的精确定位。
-
-
-
-
-
-
-
-
-