-
公开(公告)号:CN112070114B
公开(公告)日:2023-05-16
申请号:CN202010767079.6
申请日:2020-08-03
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06F40/30 , G06V30/19 , G06V10/82 , G06V30/18 , G06N3/0464 , G06N3/0442
Abstract: 本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
-
公开(公告)号:CN113887282A
公开(公告)日:2022-01-04
申请号:CN202111004566.8
申请日:2021-08-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开一种面向场景图像中任意形状邻近文本的检测系统及方法,属于图像文本检测领域,通过生成区域建议使得网络更加关注文本特征,同时提出一种一对多的训练策略,为每一个候选框匹配多个目标文本,用以缓解邻近文本时在选取回归目标混淆的问题,最终提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力。
-
公开(公告)号:CN113887282B
公开(公告)日:2024-07-26
申请号:CN202111004566.8
申请日:2021-08-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开一种面向场景图像中任意形状邻近文本的检测系统及方法,属于图像文本检测领域,通过生成区域建议使得网络更加关注文本特征,同时提出一种一对多的训练策略,为每一个候选框匹配多个目标文本,用以缓解邻近文本时在选取回归目标混淆的问题,最终提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力。
-
公开(公告)号:CN113095319B
公开(公告)日:2022-11-15
申请号:CN202110235490.3
申请日:2021-03-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于全卷积角点修正网络的多向场景文字检测方法及装置,包括:依据图片的视觉特征,获取融合特征;根据融合特征,分别得到初始特征、初始分数与初始包围框偏移;将初始包围框偏移进行线性变换,得到角点感知卷积的采样网格,并依据该采样网格,对初始特征进行卷积,产生角点感知特征;依据角点感知特征,获取修正分数与修正包围框偏移;根据初始包围框偏移、修正包围框偏移及预定义参考点进行解码运算,获取修正包围框,从而得到多向场景文字检测结果。本发明利用多向场景文本的几何特性进行特征采样,通过角点感知的卷积模块,扩大了有效感受野且没有冗余信息引入,解决了密集长文本和高质量检测的问题,获取更优秀的性能。
-
公开(公告)号:CN112070114A
公开(公告)日:2020-12-11
申请号:CN202010767079.6
申请日:2020-08-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
-
公开(公告)号:CN113963341B
公开(公告)日:2024-07-19
申请号:CN202111034219.X
申请日:2021-09-03
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/75 , G06V10/82
Abstract: 本发明公开一种基于多层感知机掩膜解码器的文字检测系统及方法,涉及图像文本检测领域,利用多层感知机掩膜解码器来有效区分不同实例,多层感知机的掩膜解码器取消了权重共享,减小了掩膜分支中的学习混淆问题,同时,由于其全局建模和更多上下文信息的引入,得到预测结果也更为紧致,可以有效区分密集文本。
-
公开(公告)号:CN113963341A
公开(公告)日:2022-01-21
申请号:CN202111034219.X
申请日:2021-09-03
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/75 , G06K9/62
Abstract: 本发明公开一种基于多层感知机掩膜解码器的文字检测系统及方法,涉及图像文本检测领域,利用多层感知机掩膜解码器来有效区分不同实例,多层感知机的掩膜解码器取消了权重共享,减小了掩膜分支中的学习混淆问题,同时,由于其全局建模和更多上下文信息的引入,得到预测结果也更为紧致,可以有效区分密集文本。
-
公开(公告)号:CN113095319A
公开(公告)日:2021-07-09
申请号:CN202110235490.3
申请日:2021-03-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于全卷积角点修正网络的多向场景文字检测方法及装置,包括:依据图片的视觉特征,获取融合特征;根据融合特征,分别得到初始特征、初始分数与初始包围框偏移;将初始包围框偏移进行线性变换,得到角点感知卷积的采样网格,并依据该采样网格,对初始特征进行卷积,产生角点感知特征;依据角点感知特征,获取修正分数与修正包围框偏移;根据初始包围框偏移、修正包围框偏移及预定义参考点进行解码运算,获取修正包围框,从而得到多向场景文字检测结果。本发明利用多向场景文本的几何特性进行特征采样,通过角点感知的卷积模块,扩大了有效感受野且没有冗余信息引入,解决了密集长文本和高质量检测的问题,获取更优秀的性能。
-
公开(公告)号:CN110674807A
公开(公告)日:2020-01-10
申请号:CN201910720688.3
申请日:2019-08-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于半监督与弱监督学习的曲形场景文字检测方法,用于减少曲形文字检测算法所需要的人工标注,同时让整个算法框架更加简洁,利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据,就能训练得到一个准确的曲形文字检测器,能够对场景曲形文字进行准确检测。
-
-
-
-
-
-
-
-