-
公开(公告)号:CN116363481A
公开(公告)日:2023-06-30
申请号:CN202310335334.3
申请日:2023-03-31
Applicant: 桂林经开信息产业投资有限责任公司 , 桂林电子科技大学
IPC: G06V10/82 , G06V10/764 , G06V10/80 , G06V10/52 , G06V10/774 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08 , G06V10/94
Abstract: 本发明涉及基于YOLOv7的少样本小尺度训练以及文件部署方法,包括:采集待检测物品的小尺度的小样本数据,对所述小样本数据进行处理,获取训练数据;基于YOLOv7构建小尺度目标检测模型,改进所述小尺度目标检测模型,通过所述训练数据对改进后的所述小尺度目标检测模型进行训练,获取最终模型;将所述最终模型的模型文件存放于指定文件夹,并进行模型编译,生成可执行文件,完成文件部署,实现对目标的检测。本发明方法对于YOLOv7在jetson nano上的部署步骤进行了总结归纳,可以使得模型能够在该设备上快速部署使用。
-
公开(公告)号:CN116258768A
公开(公告)日:2023-06-13
申请号:CN202310056084.X
申请日:2023-01-18
Applicant: 桂林电子科技大学
Abstract: 本发明提供了一种基于注意力转移的第一视角注视点预测方法包括:提取光流图像;构建基于注意力转移的第一视角注视点预测模型;将所述光流图像输入所述第一视角注视点预测模型,获取空间特征和时间特征,基于所述空间特征和时间特征,获取初始视觉显著性图像和注意力图像,基于所述初始视觉显著性图像和注意力图像,融合生成最终的注视点预测图像。本发明对原图像在多尺度上进行了时空的特征提取,充分利用了时序信息和高层语义信息用于显著性检测,通过对注意力转移的建模,从先前的注视中预测后续的注意力,最后结合视觉显著性模型融合为最终注视点预测图,提高了注视点预测的准确度。
-
公开(公告)号:CN118821047A
公开(公告)日:2024-10-22
申请号:CN202410928015.8
申请日:2024-07-11
Applicant: 桂林电子科技大学
IPC: G06F18/25 , G06F18/214 , G06F18/213 , G06V20/40 , G06N3/0455 , G06N3/0464 , G06F3/01 , H04N21/233 , H04N21/234 , H04N21/2343 , H04N21/439 , H04N21/44 , H04N21/4402
Abstract: 本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。
-
-