视频理解大模型优化与评估方法、系统、设备及存储介质

    公开(公告)号:CN119888581A

    公开(公告)日:2025-04-25

    申请号:CN202510349413.9

    申请日:2025-03-24

    Abstract: 本发明公开了一种视频理解大模型优化与评估方法、系统、设备及存储介质,它们还是一一对应的方案,方案中:设计了新的连接器结构以提升全局时序理解能力,其包含时空下采样器,局部双向Mamba结构以及线性层组成。时空下采样器能够降低令牌存储开销;同时,局部双向Mamba结构,一方面弥补了感受野受限的问题,另一方面其能够同时建模帧内特征和帧间特征;此外,该连接器的训练是低成本的,并且使用了三阶段的渐进式训练策略,可以对抗灾难性遗忘;并且,还构建了半自动化数据生成管道并基于此管道提出了全局时序理解数据,以弥补现有基准领域在该能力上的评估空缺。

    基于细粒度图文语义对齐的鲁棒性增强训练方法与系统

    公开(公告)号:CN118585818A

    公开(公告)日:2024-09-03

    申请号:CN202410755618.2

    申请日:2024-06-12

    Abstract: 本发明公开了一种基于细粒度图文语义对齐的鲁棒性增强训练方法与系统,它们是相对应的方案,方案中:针对假阴性和语义丧失两大问题,分别提出去噪对比损失和基于参数合并策略的规则约束管道,前者通过分布分解的策略,以减少假阴性的消极影响,后者设计了更严格的构造规则以消除部分可控的语义丧失样本,基于上述两种针对性策略的帮助下,缓解了低质量负样本的消极影响,避免了捷径学习,从而获得了更加鲁棒的对齐效果。同时,针对低密度描述问题,本发明提出了致密化蒸馏策略,更为直接地引导模型生成高密度的表征。本发明赋予了文本编码器更强的理解能力,同时也进一步增强了图文表征的全局性,因此,提升视觉语言模型的组合理解能力。

Patent Agency Ranking