-
公开(公告)号:CN107145888A
公开(公告)日:2017-09-08
申请号:CN201710345936.1
申请日:2017-05-17
Applicant: 重庆邮电大学
Abstract: 本发明提供一种视频字幕实时翻译方法,包括:对从视频中截取的原始图像进行多通道提取,获得多个单通道图像;基于MSER算法,分别提取原始图像和多个单通道图像的MSER区域;计算出各个MSER区域与其背景区域之间的局部对比度,并根据各个局部对比度,确定是否将对应的MSER区域滤除;确定各个MSER区域的边界关键点;以边界关键点作为分类筛选特征,对滤除后所剩各个MSER区域通过训练好的SVM进行分类筛选,获得文本区域;根据竖直方向上每相邻两个文本区域之间的距离,对各个文本区域进行文本行区分,根据同一文本行上每相邻两个文本区域之间的距离,对同一文本行的各个文本区域进行分类;基于分类后各个文本区域进行视频字幕实时翻译。
-
公开(公告)号:CN108647681A
公开(公告)日:2018-10-12
申请号:CN201810429149.X
申请日:2018-05-08
Applicant: 重庆邮电大学
CPC classification number: G06K9/3258 , G06K9/627 , G06K2209/01
Abstract: 本发明属于图像处理技术领域,具体为一种带有文本方向校正的英文文本检测方法;所述方法包括:分别对英文文本图像各个通道的进行最大稳定极值区域检测,得出候选文本区域;建立基于卷积神经网络模型的分类器,过滤错误的候选文本区域,获得初步文本区域;利用双层文本分组算法将所述初步文本区域分组;将分组后的初步文本区域进行方向校正,从而获得校正文本;本发明采用一种增强的多通道MSER模型:以得到更精细的文本区域;引入并行SPP-CNN分类器来更好地区分文本区域和非文本区域,可以处理任意大小的图像,且可在多尺度下提取池特征,从而可以通过源图像的多层空间信息来了解更多的特征;本发明可以处理略微倾斜的场景文本。
-
公开(公告)号:CN108647681B
公开(公告)日:2019-06-14
申请号:CN201810429149.X
申请日:2018-05-08
Applicant: 重庆邮电大学
Abstract: 本发明属于图像处理技术领域,具体为一种带有文本方向校正的英文文本检测方法;所述方法包括:分别对英文文本图像各个通道的进行最大稳定极值区域检测,得出候选文本区域;建立基于卷积神经网络模型的分类器,过滤错误的候选文本区域,获得初步文本区域;利用双层文本分组算法将所述初步文本区域分组;将分组后的初步文本区域进行方向校正,从而获得校正文本;本发明采用一种增强的多通道MSER模型:以得到更精细的文本区域;引入并行SPP‑CNN分类器来更好地区分文本区域和非文本区域,可以处理任意大小的图像,且可在多尺度下提取池特征,从而可以通过源图像的多层空间信息来了解更多的特征;本发明可以处理略微倾斜的场景文本。
-
-