-
公开(公告)号:CN119418345B
公开(公告)日:2025-04-29
申请号:CN202510025440.0
申请日:2025-01-08
Applicant: 南京信息工程大学
IPC: G06V30/148 , G06V30/19 , G06V30/18 , G06N3/0455
Abstract: 本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。
-
公开(公告)号:CN119418345A
公开(公告)日:2025-02-11
申请号:CN202510025440.0
申请日:2025-01-08
Applicant: 南京信息工程大学
IPC: G06V30/148 , G06V30/19 , G06V30/18 , G06N3/0455
Abstract: 本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。
-