Patent search ap:("南京信息工程大学") AND inv:"张德文" Page 1

1.

发明授权
基于VMamba框架和通道-空间注意力机制的场景文本检测方法有权

公开(公告)号：CN119418345B

公开(公告)日：2025-04-29

申请号：CN202510025440.0

申请日：2025-01-08

Applicant: 南京信息工程大学

Inventor： 胡政 , 赵英男 , 丁方琪 , 张德文 , 杨祖国 , 江结林

IPC: G06V30/148 , G06V30/19 , G06V30/18 , G06N3/0455

Abstract: 本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括：获取包含文本的场景图像参考样本数据集和增强样本数据集；基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器，获得各场景图像分别对应的多尺度文本实例特征图；采用插值和最大池化方法获得平衡特征图；基于通道‑空间注意力机制构建GASM模块，得到逐像素增强后的文本实例特征；构建傅里叶特征解码器，获得重构的文本实例轮廓；采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。

2.

发明公开
基于VMamba框架和通道-空间注意力机制的场景文本检测方法有权

公开(公告)号：CN119418345A

公开(公告)日：2025-02-11

申请号：CN202510025440.0

申请日：2025-01-08

Applicant: 南京信息工程大学

Inventor： 胡政 , 赵英男 , 丁方琪 , 张德文 , 杨祖国 , 江结林

IPC: G06V30/148 , G06V30/19 , G06V30/18 , G06N3/0455

Abstract: 本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括：获取包含文本的场景图像参考样本数据集和增强样本数据集；基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器，获得各场景图像分别对应的多尺度文本实例特征图；采用插值和最大池化方法获得平衡特征图；基于通道‑空间注意力机制构建GASM模块，得到逐像素增强后的文本实例特征；构建傅里叶特征解码器，获得重构的文本实例轮廓；采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。

Patent Agency Ranking