-
公开(公告)号:CN119296148A
公开(公告)日:2025-01-10
申请号:CN202411046431.1
申请日:2024-08-01
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于状态空间的2D屏幕注视点预测方法。其主要特征在于:(1)使用基于CNN网络的局部特征提取模块提取人脸图像的局部特征获取初始特征图;(2)初始特征图输入基于SSM的全局特征提取模块,其采用SS2D(2D选择性扫描)和FFN进行全局特征融合获得最终特征图并通过注视方向融合回归模块获得注视方向;(3)利用校准阶段获取的用户人脸图像和注视点坐标数据确定注视点映射模块的映射矩阵,最终通过注视点映射模块将预测阶段的注视方向转换为2D屏幕上的注视点。本发明方法可以有效提高用户的自由度与注视点预测的准确性。
-
公开(公告)号:CN118821047A
公开(公告)日:2024-10-22
申请号:CN202410928015.8
申请日:2024-07-11
Applicant: 桂林电子科技大学
IPC: G06F18/25 , G06F18/214 , G06F18/213 , G06V20/40 , G06N3/0455 , G06N3/0464 , G06F3/01 , H04N21/233 , H04N21/234 , H04N21/2343 , H04N21/439 , H04N21/44 , H04N21/4402
Abstract: 本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。
-
公开(公告)号:CN118095357A
公开(公告)日:2024-05-28
申请号:CN202410277725.9
申请日:2024-03-12
Applicant: 桂林电子科技大学
IPC: G06N3/0455 , G06N3/042 , G06N5/04 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/74
Abstract: 本发明公开了Transformer及其改进的显式位置编码方法,包括:步骤S1、获取原始数据;步骤S2、将所述原始数据映射为Token序列;步骤S3、基于应用场景,设计显示位置编码方式;步骤S4、通过拼接方式,对所述Token序列添加显示位置编码,获得具有位置信息的输入序列;步骤S5、将所述具有位置信息的输入序列输入至Transformer编码器/解码器中,获取显式位置编码注意力运算机制;步骤S6、基于所述显示位置编码注意力运算机制计算位置信息并融合,重复步骤S5至步骤S6直至迭代次数结束;步骤S7、获得所述显式位置编码注意力模型的推理结果。
-
公开(公告)号:CN115565100A
公开(公告)日:2023-01-03
申请号:CN202211091323.7
申请日:2022-09-07
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于时间和运动增强的视频动作识别方法。包括步骤:设计一个多路径时间增强模块,聚合由各种激发模块激发的多路径时间信息;设计一个长短程运动增强模块,编码相邻和非相邻视频帧之间的运动特征;将多路径时间增强模块和长短程运动增强模块依次连接在一起,形成时间和运动增强模块,并将其嵌入到一个二维卷积神经网络中;在动作识别的数据集上进行参数学习,将输入的视频进行稀疏采样并获得8帧图像,然后对它们进行预处理后导入上述步骤得到的网络进行训练;在动作识别的数据集上对上述步骤得到的算法进行评估,并输出对应的测试结果。本发明有效利用了时间特征和运动信息,大大提高了动作识别的准确性和实时性。
-
公开(公告)号:CN114913466A
公开(公告)日:2022-08-16
申请号:CN202210616931.9
申请日:2022-06-01
Applicant: 桂林电子科技大学
Abstract: 本发明涉及一种基于双流信息与稀疏表示的视频关键帧提取方法,包括:拆分待提取的视频文件,获得图像帧,基于图像帧,分别构建视频空间流矩阵与视频时间流矩阵;通过视频空间流矩阵与视频时间流矩阵,得到双流信息矩阵,对双流信息矩阵进行特征提取,得到双流特征矩阵;将双流特征矩阵输入到稀疏表示模型中,计算稀疏系数矩阵,基于稀疏系数矩阵,获取关键帧索引;通过关键帧索引提取所述待提取视频文件中的关键帧。本发明可以高效提取一个视频中较少的关键帧,使提取的关键帧数量减少,降低关键帧提取的压缩率,同时提高关键帧提取算法的计算速度。
-
公开(公告)号:CN114463680A
公开(公告)日:2022-05-10
申请号:CN202210122460.6
申请日:2022-02-09
Applicant: 桂林电子科技大学
Abstract: 本发明公开一种基于MCP稀疏表示的视频关键帧提取方法,包括以下步骤:拆分视频,获得图像帧,基于所述图像帧,构建视频信号矩阵;利用MCP稀疏约束构建稀疏表示模型;将所述视频信号矩阵输入所述稀疏表示模型,利用DC编码优化所述稀疏表示模型,计算稀疏系数矩阵,基于所述稀疏系数矩阵,获取关键帧索引;基于所述关键帧索引,提取所述视频中的关键帧。本发明提高了关键帧提取算法的计算速度,同时使提取的关键帧数量减少,降低压缩率。
-
公开(公告)号:CN115761858B
公开(公告)日:2025-05-09
申请号:CN202211509716.5
申请日:2022-11-29
Applicant: 桂林电子科技大学
Abstract: 本申请公开了一种基于人脸外观的注视方向预测方法及系统,方法包括:采集待预测对象的人脸图片,得到原始预测图像;基于所述原始预测图像,裁剪出左眼和右眼的图片,得到人眼预测图像;构建注视方向预测模型;所述人眼预测图像输入至所述注视方向预测模型中,得到人脸注视方向。通过设计自注意力静态模块去融合粗粒度人脸特征和细粒度人眼特征,提高了不同粒度特征的融合程度;通过设计差分动态模块去显式获得动态特征,增强了对原有数据集的动态特征的利用程度。
-
公开(公告)号:CN114220059B
公开(公告)日:2024-10-29
申请号:CN202111548537.8
申请日:2021-12-17
Applicant: 桂林电子科技大学
IPC: G06V20/40 , G06F17/16 , G06V10/774
Abstract: 本发明公开了一种基于解析稀疏表示的关键帧提取方法,包括步骤:将视频转化为矩阵表示,视频矩阵的每一列为视频的每一帧信号;设计一个基于minimax concave penalty (MCP)稀疏正则化的解析稀疏编码模型;将视频矩阵作为原信号,视频矩阵的转置矩阵作为解析字典,带入解析稀疏编码模型;通过解析稀疏编码算法计算出稀疏系数矩阵,其中稀疏系数矩阵的非零行代表关键帧的索引;根据关键帧的索引选择出对应的该视频关键帧。本发明将提高选取关键帧的压缩率,同时降低计算复杂度,提高关键帧的提取速度。此外,本发明通过对许多具有挑战性的现实世界场景进行验证,相较于传统的关键帧提取方法具有更高的提取效率。
-
公开(公告)号:CN118379774A
公开(公告)日:2024-07-23
申请号:CN202410537522.9
申请日:2024-04-30
Applicant: 桂林电子科技大学
IPC: G06V40/16 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于CNN融合transformer的人脸外观注视方向预测方法,属于图像处理技术领域,发明内容包括:获取待测对象的人脸外观图像;将所述待测对象的人脸图像输入可靠梯度传播的卷积神经网络中,提取人脸图像中的大尺度特征、中等尺度特征以及全局视觉特征;将提取的特征输入到transformer模块,聚合为多尺度特征;将聚合的多尺度特征以及全局视觉特征经过多头交叉注意力,输出注视方向。本发明融合CNN与transformer的优势,解决了现有注视方向预测技术信息丢失严重和多尺度特征利用率低的问题。
-
公开(公告)号:CN116503937A
公开(公告)日:2023-07-28
申请号:CN202310487577.9
申请日:2023-05-04
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于人脸外观的深度学习注视预测方法及系统,方法包括:获取待测对象的人脸外观图片;对所述待测对象的人脸外观图片进行处理,提取人脸图片;将所述人脸图片输入训练好的注视预测模型中,预测所述人脸图片中人眼注视方向。本发明通过将卷积神经网络、窗口多头注意力机制和移动窗口多头注意力机制结合,提高了网络的图片局部空间特征学习能力和全局特征建模能力,解决了现有基于视觉变压器的注视预测方法无法多尺度特征学习以及图片全局自注意力计算困难的问题。
-
-
-
-
-
-
-
-
-