-
公开(公告)号:CN110675329B
公开(公告)日:2022-02-18
申请号:CN201910722994.0
申请日:2019-08-06
Applicant: 厦门大学
Abstract: 基于视觉语义引导的图像去模糊方法,涉及计算机视觉和人工智能领域。提出结构化空间语义嵌入模型,构造S3树用于自动推断结构化内容和在推理期间提供结构化空间特征,连接图像语义理解和图像去模糊两大模块,在多任务中实现语义的建模和嵌入,以获得最佳的特征图;在模糊图像去模糊过程中,将获得的最佳的特征图采用卷积与合并操作输入到去模糊模块中;该去模糊模块基于树结构的生成对抗网络进行训练;其中损失函数包括:S3树引导的对抗损失以及S3树引导的内容损失;模糊图像自动描述和图像去模糊协同训练,对树模型进行行优化。采用基于结构化空间语义嵌入的全新深度学习网络设计,解决了模糊图像去模糊中没有考虑图像语义内容等问题。
-
公开(公告)号:CN113837376A
公开(公告)日:2021-12-24
申请号:CN202111005875.7
申请日:2021-08-30
Applicant: 厦门大学
Abstract: 基于动态编码卷积核融合的神经网络剪枝方法,涉及人工神经网络的压缩与加速。1)计算当前训练轮数的温度系数;2)根据原始层的卷积核权重与当前训练轮数的温度系数,计算原始层每个卷积核的概率向量;3)根据原始层每个卷积核的概率向量,计算融合层卷积核的权重;4)前向传播过程只使用融合层,反向传播的梯度由当前融合层同时回传到当前原始层与上一个融合层;5)循环执行1)~4),直至达到预定的训练轮数;6)训练结束保留所有融合层的权重,即得剪枝后的紧凑卷积神经网络。无需依赖预训练模型与稀疏约束,可直接从头训练得到,卷积核个数更少,可在无需特定硬件支持的情况下,在通用硬件平台上实现网络压缩与加速。
-
公开(公告)号:CN113837231A
公开(公告)日:2021-12-24
申请号:CN202111005885.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06K9/62 , G06F40/211 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 一种基于混合样本与标签的数据增强的图像描述方法,涉及人工智能。1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)将步骤1)提取的图像特征按照服从beta分布的权值进行线性混合;3)将输入的语言数据以词嵌入的形式进行和步骤2)权值一样的线性混合;4)将混合后的图像特征和词嵌入输入到模型中,得到生成的句子;5)将生成的句子和被混合的两个图像的对应真实句子进行损失计算,采用一个混合的损失函数将两个损失值混合,并更新模型参数,实现数据增强,并用混合的输入和对应的混合的目标来强化图像描述方法生成句子的多样性和判别性。具有很强的迁移性,能适用于现有大多数的图像描述模型,并都取得性能提升。
-
公开(公告)号:CN113837230A
公开(公告)日:2021-12-24
申请号:CN202111005878.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06K9/62 , G06F40/242 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 基于自适应注意力机制的图像描述生成方法,属于人工智能技术领域。提出一个网格增强模块,引入网格位置之间的相对几何关系来增强网格特征。首先构造基于BERT的语言模型用于提取生成序列的语言信息,接着在transformer的解码器上方构造一个自适应注意力模块,用于在每个单词预测前充分度量视觉信息和语言信息的贡献,来生成更有区分度的图像描述。为证明提出的方法具有通用性,将这两个模型添加到初始的transformer结构上构造RSTNet,并在图像描述的基准数据集MS‑COCO上进行测试。提出的模型在线下MS‑COCO的Karpathy划分测试集和线上的MS‑COCO测试服务器上均取得最先进的性能。
-
公开(公告)号:CN108596010B
公开(公告)日:2020-09-04
申请号:CN201711493983.7
申请日:2017-12-31
Applicant: 厦门大学
IPC: G06K9/00 , G06K9/62 , G06F16/783 , G06F16/738
Abstract: 行人重识别系统的实现方法,涉及行人重识别技术。包括以下步骤:1)对监控视频进行离线建模,具体包括行人检测和行人特征提取;2)在线检索:在进行在线检索时,共进行两个排序,首先对于每个视频中的行人按照同检索目标的相似度进行排序,然后对于所有检索视频计算一个包含检索目标的可能性,将视频进行排序。在实际应用中采用将深度特征和手工特征相结合的方法。采用融合分类损失和三元组损失两种损失函数的网络结构进行深度特征学习,两种损失函数的融合充分利用了数据集的标签信息以及图像对的相似性信息,使得在数据集较小的情况下也可以获得有效的具有区分性的行人特征。采用改进的三元组损失函数,训练效果更优。
-
-
公开(公告)号:CN108062574B
公开(公告)日:2020-06-16
申请号:CN201711494009.2
申请日:2017-12-31
Applicant: 厦门大学
Abstract: 一种基于特定类别空间约束的弱监督目标检测方法。使用候选区域提取算法提取所有训练图像的候选区域;在训练弱监督目标检测器中,提取每一张训练图像的特定类别的像素梯度图,特定类别的像素梯度图反应像素对特定类别的响应,粗略估计目标物体的形状和位置;计算对应候选区域包含目标物体的置信度;把候选区域的置信度引入候选区域分类得分的聚合过程中,包含候选区域的分类得分和候选区域的空间信息;候选区域的空间约束排除背景噪声区域,获得更准确的模型;在训练过程中使用多中心正则化保证模型的学习过程稳定;在测试弱监督目标检测器中,把图像以及对应的候选区域输入模型,模型输出每个候选区域对于每个类别的预测得分。
-
公开(公告)号:CN110675329A
公开(公告)日:2020-01-10
申请号:CN201910722994.0
申请日:2019-08-06
Applicant: 厦门大学
Abstract: 基于视觉语义引导的图像去模糊方法,涉及计算机视觉和人工智能领域。提出结构化空间语义嵌入模型,构造S3树用于自动推断结构化内容和在推理期间提供结构化空间特征,连接图像语义理解和图像去模糊两大模块,在多任务中实现语义的建模和嵌入,以获得最佳的特征图;在模糊图像去模糊过程中,将获得的最佳的特征图采用卷积与合并操作输入到去模糊模块中;该去模糊模块基于树结构的生成对抗网络进行训练;其中损失函数包括:S3树引导的对抗损失以及S3树引导的内容损失;模糊图像自动描述和图像去模糊协同训练,对树模型进行行优化。采用基于结构化空间语义嵌入的全新深度学习网络设计,解决了模糊图像去模糊中没有考虑图像语义内容等问题。
-
公开(公告)号:CN110674836A
公开(公告)日:2020-01-10
申请号:CN201910722273.X
申请日:2019-08-06
Applicant: 厦门大学
Abstract: 一种基于生成网络的稀疏对抗样本生成方法,涉及对抗样本、深度神经网络。针对传统稀疏对抗样本需要多次迭代从而生成速度慢的缺点,考虑通过一次网络前向过程生成对抗样本,同时将对抗样本生成与稀疏约束解耦,提供一种基于生成网络的稀疏对抗样本生成方法。包括以下步骤:1)构造一种基于稀疏约束的对抗样本,仅改变少数的像素点像素值,使得图片被对应模型分类错误;2)生成模型采用双路U-Net网络模型,分离对抗样本生成部分与稀疏约束部分;3)采用新的量化误差函数,减少训练与测试过程中稀疏掩码的量化差异;4)生成的稀疏掩码有潜在语义含义,可以在多个模型之前迁移。
-
公开(公告)号:CN110472631A
公开(公告)日:2019-11-19
申请号:CN201910630980.6
申请日:2019-07-12
Applicant: 厦门大学
Abstract: 基于序列预测的实时语义分割方法,涉及图像分割。对于图像库中的图像,随机选取一部分图像作为训练集;设计合适的网络用于训练,抽取相应的图像特征,包括修改后的Resnet和Xception网络;编码器和解码器的每个模块都输出一个预测结果;上一个模块的预测结果用于辅助下一个模块的预测,并且每个预测结果做为主干网络的一部分来优化整个网络;在解码器部分设计多种预测结果融合方法;将Resnet中的残差卷积改为上下文残差卷积,在只增加少量计算量的同时,增大感受野的大小。提高语义分割的准确性,利用循环促进的方法减少了网络传输过程中造成的信息损失,提升了网络精度。
-
-
-
-
-
-
-
-
-