基于VMamba框架和通道-空间注意力机制的场景文本检测方法

    公开(公告)号:CN119418345B

    公开(公告)日:2025-04-29

    申请号:CN202510025440.0

    申请日:2025-01-08

    Abstract: 本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。

    基于VMamba框架和通道-空间注意力机制的场景文本检测方法

    公开(公告)号:CN119418345A

    公开(公告)日:2025-02-11

    申请号:CN202510025440.0

    申请日:2025-01-08

    Abstract: 本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。

Patent Agency Ranking