一种基于多模态深度学习的第一人称视角注视点预测方法

    公开(公告)号:CN118821047A

    公开(公告)日:2024-10-22

    申请号:CN202410928015.8

    申请日:2024-07-11

    Abstract: 本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。

    一种多尺度特征金字塔网络融合ViT的手机外壳缺陷检测方法

    公开(公告)号:CN119445227A

    公开(公告)日:2025-02-14

    申请号:CN202411514557.7

    申请日:2024-10-29

    Abstract: 本发明提供了一种多尺度特征金字塔网络融合ViT的手机外壳表面缺陷检测方法,属于人工智能图像处理领域。其包括:分析手机外壳缺陷特征,确定缺陷类型;采集手机外壳图像并预处理;对图像进行像素级标注并添加标签信息,构建数据集;通过裁剪、翻转、加噪等进行数据增强,生成训练集、验证集和测试集;构建融合多尺度特征金字塔网络与ViT的缺陷检测模型;将训练集、验证集和测试集输入模型进行训练与评估,获得训练好的模型;将待检测图像输入模型,输出缺陷类型及标注缺陷位置的结果图像。本发明通过特征金字塔网络实现多尺度目标检测与语义分割,融合ViT获取全局信息和位置关联性,提高缺陷检测的准确性与定位能力。

Patent Agency Ranking