开放词汇图像语义分割方法、系统、设备及存储介质

    公开(公告)号:CN119723096B

    公开(公告)日:2025-05-13

    申请号:CN202510227653.1

    申请日:2025-02-27

    Abstract: 本发明公开了一种开放词汇图像语义分割方法、系统、设备及存储介质,它们是一一对应的方案,相关方案与传统的方法不同,不仅能够生成准确且多样的识别结果,涵盖了属性和多层次语义信息,并且,通过视觉到语言的学习,具有更强的泛化能力,能够更灵活地处理不同的视觉内容,并能够有效识别开放场景中的目标;通过实验结果表明,本发明的方案可以在多个数据集上提升开放词汇图像语义分割性能,此外,本发明的方案也具有高可扩展性,其有潜力作为一个自动化系统,用于自动化的标注。

    视频理解大模型优化与评估方法、系统、设备及存储介质

    公开(公告)号:CN119888581A

    公开(公告)日:2025-04-25

    申请号:CN202510349413.9

    申请日:2025-03-24

    Abstract: 本发明公开了一种视频理解大模型优化与评估方法、系统、设备及存储介质,它们还是一一对应的方案,方案中:设计了新的连接器结构以提升全局时序理解能力,其包含时空下采样器,局部双向Mamba结构以及线性层组成。时空下采样器能够降低令牌存储开销;同时,局部双向Mamba结构,一方面弥补了感受野受限的问题,另一方面其能够同时建模帧内特征和帧间特征;此外,该连接器的训练是低成本的,并且使用了三阶段的渐进式训练策略,可以对抗灾难性遗忘;并且,还构建了半自动化数据生成管道并基于此管道提出了全局时序理解数据,以弥补现有基准领域在该能力上的评估空缺。

    上下文感知的指称图像分割方法、系统、设备及存储介质

    公开(公告)号:CN117078942B

    公开(公告)日:2024-02-23

    申请号:CN202311319576.X

    申请日:2023-10-12

    Abstract: 本发明公开了一种上下文感知的指称图像分割方法、系统、设备及存储介质,它们是一一对应的方案,方案中:利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,能够显著增强了文本特征的视觉上下文感知能力,促进跨模态的特征对齐;同时,本发明还引入多尺度视觉上下文的文本提示,在文本编码阶段进一步融合了上下文信息,并且,针对无法与文本描述有效对齐的非目标像素(即背景像素),本发明所提出的掩膜提示作为文本描述在掩膜解码阶段的扩展向量,用于代替无关的文

    长尾图像检索方法、系统、设备及存储介质

    公开(公告)号:CN117056550B

    公开(公告)日:2024-02-23

    申请号:CN202311320335.7

    申请日:2023-10-12

    Abstract: 本发明公开了一种长尾图像检索方法、系统、设备及存储介质,它们是一一对应的方案,方案中:在尾部类别样本过少的情况下利用动态哈希代理和动态特征代理准确描述类别语义,从而有效提高尾部类别样本对应哈希码的判别性,本发明可应用于各类以图搜图场景,能够在部分数据稀缺的情况下实现准确高效的大规模图像检索,在实施上,可以安装于各类以图搜图系统的后台服务器,具有存储开销低,检索速度快,检索精度高等优点。

    场景文本识别方法、系统、设备及存储介质

    公开(公告)号:CN117037136B

    公开(公告)日:2024-02-23

    申请号:CN202311305720.4

    申请日:2023-10-10

    Abstract: 本发明公开了一种场景文本识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:从文本图像天然包含文本序列的阅读顺序和序列中每一个字符的视觉语义概念特性出发,在预训练阶段中实现对视觉空间中文本序列阅读顺序的感知和建模,并进一步地增强了局部的字符视觉语义。通过大量的实验证明了本发明性能优于以往的方法,对于规则,不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。

Patent Agency Ranking