一种基于多模态融合技术的复杂场景下苹果果实检测方法

    公开(公告)号:CN119851264A

    公开(公告)日:2025-04-18

    申请号:CN202411921967.3

    申请日:2024-12-25

    Abstract: 本发明公开了一种基于多模态融合技术的复杂场景下苹果果实检测方法,包括:1、构建数据集;2、可见光图像与红外光图像特征融合;3、对融合得到的可见光图像特征进行掩码并与视觉特征进行融合;4、将融合后的视觉特征与文本特征融合;5、对可见光图像特征进行过滤;6、将可见光图像特征与文本特征输入到词‑区域相似度计算中;7、结合Soft‑NMS和Focal‑EIOU选取最优目标框。本发明将红外光图像、可见光图像、文本三种模态进行特征融合,综合考虑了不同模态的互补优势。并且利用软非极大值抑制(Soft‑NMS)和Focal‑EIOU来选取最优目标框,有效提高了复杂条件下苹果果实的检测精度。

Patent Agency Ranking