融合全局信息的场景分割修正方法与系统

    公开(公告)号:CN107564007B

    公开(公告)日:2020-09-11

    申请号:CN201710650525.3

    申请日:2017-08-02

    Inventor: 唐胜 张蕊 李锦涛

    Abstract: 本发明涉及一种场景分割修正方法,通过全局残差修正网络,以完全残差卷积网络作为前端模型,将该前端模型的置信度图和原始图像按通道拼接起来,作为该全局残差修正网络的输入,从而输出全局修正残差,将该全局修正残差与该置信度图相加,得到场景分割的修正结果;使用已知的场景分割数据集对该全局残差修正网络进行训练;使用已知的场景分割数据集对该全局残差修正网络进行训练。同时本发明还提出了将该全局残差修正网络和局部边界修正网络串联起来,形成级联的框架,该级联的框架可以对前端模型的分割结果进行全局修正和局部修正,从而得到更加精确的场景分割结果。

    一种基于目标检测的视觉目标检索方法与系统

    公开(公告)号:CN107515895B

    公开(公告)日:2020-06-05

    申请号:CN201710574741.4

    申请日:2017-07-14

    Abstract: 本发明涉及一种基于目标检测的视觉目标检索方法和系统,包括:采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对初步目标检测模型进行微调,生成最终目标检测模型;通过最终目标检测模型对待检索图片中的视觉目标进行特征提取,生成待检索图片的多个卷积特征图,通过空间注意力矩阵将卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与聚合特征向量相匹配的图片。本发明通过将视觉目标检索与检测相关联,避免了候选窗口预测步骤,并通过选择性累加特征图得到注意力矩阵,将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索,提高了检索速度和精度。

    一种生成描述图像内容的自然语言的方法与系统

    公开(公告)号:CN107918782A

    公开(公告)日:2018-04-17

    申请号:CN201711265210.3

    申请日:2017-12-05

    Abstract: 本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法,以及采用所述模型生成描述图像内容的自然语言的方法。其中,所述训练方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。

    一种基于目标检测的视觉目标检索方法与系统

    公开(公告)号:CN107515895A

    公开(公告)日:2017-12-26

    申请号:CN201710574741.4

    申请日:2017-07-14

    Abstract: 本发明涉及一种基于目标检测的视觉目标检索方法和系统,包括:采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对初步目标检测模型进行微调,生成最终目标检测模型;通过最终目标检测模型对待检索图片中的视觉目标进行特征提取,生成待检索图片的多个卷积特征图,通过空间注意力矩阵将卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与聚合特征向量相匹配的图片。本发明通过将视觉目标检索与检测相关联,避免了候选窗口预测步骤,并通过选择性累加特征图得到注意力矩阵,将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索,提高了检索速度和精度。

    一种基于颜色对比度的局部区域检测子提取方法及系统

    公开(公告)号:CN104881669A

    公开(公告)日:2015-09-02

    申请号:CN201510243968.1

    申请日:2015-05-13

    CPC classification number: G06K9/4652

    Abstract: 本发明公开了一种基于颜色对比度的局部区域检测子提取方法及系统,涉及图像检索、图像识别、对象跟踪检测领域,该方法包括获取图像,并对所述图像的四个角进行尺度选择,通过二维信息熵值的局部极小值选取所述图像的图像背景的最佳尺度,根据所述最佳尺度,建立背景RGB三通道高斯混合模型;对所述图像中每个像素点建立RGB三通道高斯混合模型,并根据每个所述像素点的RGB三通道高斯混合模型与所述背景RGB三通道高斯混合模型的KL距离,更新所述图像的颜色对比度排序;根据所述颜色对比度排序,通过分水岭的区域检测方式检测对比度一致的区域,所述区域为所述局部区域检测子。本发明提取检测子速度快,内存占用少。

    色情检测模型建立方法和色情检测方法

    公开(公告)号:CN101819638B

    公开(公告)日:2012-07-11

    申请号:CN201010143777.5

    申请日:2010-04-12

    Abstract: 本发明提供一种色情检测模型建立方法,包括:从带有标注信息的样本音视频对象中提取视频特征和音频特征;根据所述标注信息,为所述样本音视频对象中的各类音频特征、视频特征分别训练模型,然后利用基于排序的加权平均融合方法计算所述模型间的融合参数;其中,所述的基于排序的加权平均融合方法遍历参数orness的取值区间,为所述参数orness的各个取值计算相应的融合参数,然后利用所述样本音视频对象计算各个融合参数的效果,选取效果最好的融合参数作为模型间的融合参数。本发明的色情检测方法与现有技术中的相关方法相比综合采用了视频特征与音频特征,检测准确率上有较大的提高。

    一种基于时空条带模式分析的新闻主播镜头检测方法

    公开(公告)号:CN101316328A

    公开(公告)日:2008-12-03

    申请号:CN200710099726.5

    申请日:2007-05-29

    Abstract: 本发明公开了一种基于时空条带模式分析的新闻主播检测方法,包括:从经过编辑的新闻视频中截取连续的N帧作为一组,并提取水平时空条带和垂直时空条带;提取水平时空条带和垂直时空条带中所对应的图像特征,得到相应的特征向量;通过聚类方法对特征向量分别聚类,并将同一类中时间连续的水平或垂直时空条带分别合并,作为类中的新元素,得到最终的水平聚类结果和垂直聚类结果;将水平聚类结果中包含有最多元素的类和垂直聚类结果中包含有最多元素的类进行融合,根据融合结果检测新闻主播镜头。本发明的优点是对各类新闻视频主播检测准确率高,通用性强,计算复杂度低。避免了现有方法过于依赖准确的镜头分割和其他模态信息的缺点。

    一种多模态融合的采访镜头检测方法

    公开(公告)号:CN101316327A

    公开(公告)日:2008-12-03

    申请号:CN200710099725.0

    申请日:2007-05-29

    Abstract: 本发明公开了一种多模态融合的采访镜头检测方法,包括:输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头;根据视频预处理操作所得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否为包含人脸的镜头;融合人声检测结果和人脸检测结果,如果一个镜头中同时包含人声和人脸信息,则镜头为采访镜头。本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。

    乱笔顺库建立方法及联机手写汉字识别评测系统

    公开(公告)号:CN1641686A

    公开(公告)日:2005-07-20

    申请号:CN200410000823.0

    申请日:2004-01-17

    Abstract: 本发明涉及一种建立乱笔顺库的方法及联机手写汉字识别技术的评测系统。本发明方法,包括标准样本库的采集和乱笔顺库的生成,其特征在于,所述乱笔顺库是按照笔画的连通关系,对采集的联机手写汉字笔迹数据进行等价划分,分割出至少一个以上的部件后,再打乱每个部件内笔画的顺序生成的。本发明的评测系统,包括:存储设备,用于存储标准样本库和乱笔顺库;采集模块,用于采集标准样本库;转换模块,用于将联机汉字笔迹数据转化成一幅二值图像;分割模块,用于按照笔画的连通关系从二值图像中分割出至少一个以上的部件;生成模块,包括一用于打乱每个部件内笔画的顺序的单元,以及一用于打乱部件之间排列顺序的单元。

Patent Agency Ranking