基于互补语义对齐和对称检索的图像-文本互检索方法

    公开(公告)号:CN109255047A

    公开(公告)日:2019-01-22

    申请号:CN201810787435.3

    申请日:2018-07-18

    Abstract: 本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于互补语义对齐和对称检索的图像-文本互检索方法,采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。本发明具有准确度高的优点。

    基于改进词袋模型的不良图像检测方法

    公开(公告)号:CN104680189A

    公开(公告)日:2015-06-03

    申请号:CN201510117478.7

    申请日:2015-03-15

    Abstract: 本发明公开了一种基于改进词袋模型的不良图像检测方法,主要解决传统词袋模型在检测不良图像过程中颜色描述不准确、关键特征点提取不全面、特征描述复杂、局部区域描述不精确的问题。其实现步骤为:(1)提取关键特征点;(2)对关键特征点提取颜色特征和梯度特征;(3)根据颜色特征和梯度特征分别建立颜色词典和梯度词典;(4)根据先验知识计算每个特征点颜色单词的类条件概率;(5)根据类条件概率对相应的梯度单词加权,并统计加权后的梯度单词直方图,(6)利用直方图训练分类器;(7)用训练好的分类器检测不良图像。本发明提高了颜色描述信息的丰富性,避免了关键特征点的丢失,能更加精确描述图像局部区域,可用于过滤色情图像。

    基于语义指导与记忆机制的视频描述方法

    公开(公告)号:CN110991290A

    公开(公告)日:2020-04-10

    申请号:CN201911171235.6

    申请日:2019-11-26

    Abstract: 本发明公开了一种基于语义指导与记忆机制的视频描述方法,主要解决现有技术中视频语义信息利用不足,LSTM网络记忆能力有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层感知机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或人机交互中视频的自动语义描述。

    保持颜色信息的混合形变模型下的不良图像检测方法

    公开(公告)号:CN104134059B

    公开(公告)日:2017-07-14

    申请号:CN201410359035.4

    申请日:2014-07-25

    Abstract: 本发明公开了一种保持颜色信息的形变敏感器官模型下的不良图像检测方法,包括采用混合高斯模型建立人体敏感器官的颜色模型;提取敏感器官训练样本的HoG特征及GMM特征;对每一种人体敏感器官的特定姿态,在其HoG特征和GMM特征相结合后的特征上,利用可形变部件模型以及隐含支撑向量机训练该敏感器官在特定姿态下的检测器,将多种姿态下的检测器集成为该敏感器官的混合形变模型;多种人体敏感器官分类器分别检测测试图像,融合检测结果并判定图像的性质。本发明利用不良图像中敏感器官的高层语义信息鉴别不良图像,有效地解决了正常图像的误判问题,可用于过滤图像中的色情信息。

    基于语义指导与记忆机制的视频描述方法

    公开(公告)号:CN110991290B

    公开(公告)日:2023-03-10

    申请号:CN201911171235.6

    申请日:2019-11-26

    Abstract: 本发明公开了一种基于语义指导与记忆机制的视频描述方法,主要解决现有技术中视频语义信息利用不足,LSTM网络记忆能力有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层感知机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或人机交互中视频的自动语义描述。

    基于改进词袋模型的不良图像检测方法

    公开(公告)号:CN104680189B

    公开(公告)日:2018-04-10

    申请号:CN201510117478.7

    申请日:2015-03-15

    Abstract: 本发明公开了一种基于改进词袋模型的不良图像检测方法,主要解决传统词袋模型在检测不良图像过程中颜色描述不准确、关键特征点提取不全面、特征描述复杂、局部区域描述不精确的问题。其实现步骤为:(1)提取关键特征点;(2)对关键特征点提取颜色特征和梯度特征;(3)根据颜色特征和梯度特征分别建立颜色词典和梯度词典;(4)根据先验知识计算每个特征点颜色单词的类条件概率;(5)根据类条件概率对相应的梯度单词加权,并统计加权后的梯度单词直方图,(6)利用直方图训练分类器;(7)用训练好的分类器检测不良图像。本发明提高了颜色描述信息的丰富性,避免了关键特征点的丢失,能更加精确描述图像局部区域,可用于过滤色情图像。

    基于视觉显著性与语义属性跨模态图像自然语言描述方法

    公开(公告)号:CN107688821A

    公开(公告)日:2018-02-13

    申请号:CN201710560024.6

    申请日:2017-07-11

    CPC classification number: G06K9/6262 G06K9/6256 G06N3/084

    Abstract: 本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

    基于多通道多尺度与级联过滤器的快速图像文本检测方法

    公开(公告)号:CN106384112A

    公开(公告)日:2017-02-08

    申请号:CN201610808517.2

    申请日:2016-09-08

    CPC classification number: G06K9/325 G06K9/342 G06K9/6273 G06K2209/01

    Abstract: 本发明公开了一种基于多通道多尺度与级联过滤器的快速图像文本检测方法,主要解决现有技术查全率低和速度慢的问题。其过程是:1)在输入图像的不同通道和尺度下提取最大稳定极值区域作为字符候选区域;2)用由粗到细的级联过滤器去除字符候选区域中的背景区域,即先为字符候选区域的形态学特征设置阈值,进行第一级粗过滤;再为字符候选区域的笔画宽度和笔画宽度变异系数设置阈值,进行第二次级粗过滤,之后去除重叠的区域,利用卷积神经网络二分类器进行细过滤;3)根据级联过滤后的字符候选区域的几何和位置特征,用图模型将该区域聚合成字符串。本发明具有很高的查全率、较高的准确率和较快的速度,可用于各种干扰下的图像文本的检测。

    基于局部几何视觉短语描述的鉴别性人脸姿态识别方法

    公开(公告)号:CN103310208A

    公开(公告)日:2013-09-18

    申请号:CN201310289408.0

    申请日:2013-07-10

    Abstract: 基于局部几何视觉短语描述的鉴别性人脸姿态识别方法,其包括基于人脸局部特征建立词袋模型,通过局部几何视觉短语引入词袋模型中单词的空间信息,并用几何视觉短语构成图像的特征向量,用向量的内积统计共现的特征数目,通过共现的特征数构成训练图像核矩阵,将所述训练图像核矩阵输入到支撑向量机分类器训练得到人脸姿态分类器。本发明能克服光照、遮挡和偏移对人脸姿态判别的影响,提高人脸姿态特征的鉴别性;通过在位移空间统计共现的局部几何视觉短语数提高计算效率且保证了基于局部几何视觉短语的空间特征的移位不变性。

    基于视觉显著性与语义属性跨模态图像自然语言描述方法

    公开(公告)号:CN107688821B

    公开(公告)日:2021-08-06

    申请号:CN201710560024.6

    申请日:2017-07-11

    Abstract: 本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

Patent Agency Ranking