基于扩散模型和文本嵌入的视频异常检测方法

    公开(公告)号:CN119580146A

    公开(公告)日:2025-03-07

    申请号:CN202411616282.8

    申请日:2024-11-13

    Abstract: 本发明公开了基于扩散模型和文本嵌入的视频异常检测方法,涉及视频异常检测技术领域。本发明提供的基于扩散模型和文本嵌入的视频异常检测方法,包括首先利用图文生成模型提取各视频帧的文本信息,再通过预训练的CLIP文本编码器得到语义特征;基于图像扩散模型和文本扩散模型,构建视频异常检测模型,并利用交叉注意力机制分别引导图像扩散去噪网络、文本扩散去噪网络重构图像特征和文本特征,再通过整体优化完成模型训练,进而对视频异常进行检测。因此,采用上述方法,能够借助扩散模型的强大生成能力和图生文模型的语义理解能力,缓解了特定场景下的过度泛化问题,增强了视频异常检测的可解释性,提高视频异常检测模型的性能。

Patent Agency Ranking