-
公开(公告)号:CN118823342A
公开(公告)日:2024-10-22
申请号:CN202410831267.9
申请日:2024-06-26
Applicant: 北京工业大学
IPC: G06V10/26 , G06V10/764 , G06V10/82 , G06V10/62 , G06V10/56 , G06N3/045 , G06N3/0499 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于大模型适配的多模态语义分割方法,首先对于每一对的输入数据,以RGB数据的曝光时间戳为基准,以不同的时间尺度划分事件信息,随后将事件处理为体素,和视频帧分别输入多时空尺度事件嵌入模块与SAM主干,然后将经过多时空尺度事件嵌入模块提取的时间特征输入SAM事件适配器中,与SAM中的图像信息进行交互,得到富含高质量运动信息的特征。最后特征将被输入简单的语义分割头来生成语义分割结果。本发明是端到端的,整体可以直接进行训练,之后可以使用训练的模型来处理事件‑RGB场景下的语义分割问题。本发明解决了由于RGB信息在极端场景下信息丢失的问题,并达到了比以往工作更优秀的语义分割结果。