一种基于多尺度分层残差网络的图像多字幕自动生成方法

发明授权

CN107844743B 一种基于多尺度分层残差网络的图像多字幕自动生成方法有权

请登陆查看更多内容

专利标题： 一种基于多尺度分层残差网络的图像多字幕自动生成方法
申请号： CN201710896059.7

申请日： 2017-09-28
公开(公告)号： CN107844743B

公开(公告)日： 2020-04-28
发明人: 田彦 , 王勋 , 黄刚
申请人： 浙江工商大学
申请人地址： 浙江省杭州市下沙高教园区学正街18号
专利权人： 浙江工商大学
当前专利权人： 浙江工商大学
当前专利权人地址： 浙江省杭州市下沙高教园区学正街18号
代理机构： 杭州天勤知识产权代理有限公司
代理商 胡红娟
主分类号： G06K9/00
IPC分类号： G06K9/00 ; G06N3/04 ; G06N3/08

摘要：

本发明公开了一种基于多尺度分层残差网络的图像多字幕自动生成方法，该方法应用了改进的漏斗网络捕捉多尺度目标信息。首先在构建漏斗框架网络时提出了一种密集连接聚合残差块，为了解决梯度消失和梯度爆炸问题，进一步提出了残差LSTM。该方法取得了较高的实验性能，在多字幕获取任务上有明显优势。

摘要（英）：

The invention discloses an image multi-subtitle automatic generation method based on a multiscale hierarchical residual network, and adopts an improved funnel network to capture multiscale target information. Firstly, when a funnel framework network is constructed, a densely connected polymerization residual block is put forward, and residual LSTM (Long Short Term Memory) is further put forward inorder to solve the problems of gradient vanishing and gradient explosion. By use of the method, high experiment performance is obtained, and the method has an obvious advantage on multi-subtitle taskacquisition.

公开/授权文献

CN107844743A 一种基于多尺度分层残差网络的图像多字幕自动生成方法公开/授权日：2018-03-27

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )