-
公开(公告)号:CN119295770A
公开(公告)日:2025-01-10
申请号:CN202411301962.0
申请日:2024-09-18
Applicant: 华中科技大学
IPC: G06V10/46 , G06V10/774 , G06V10/778 , G06V10/82 , G06N3/0455 , G06N3/092
Abstract: 本发明公开了一种图像描述模型的构建方法、图像描述方法及设备,属于图像处理技术领域;本发明设计了一种包括多层DT模块级联的DT模型,通过多层DT模块级联来保证下一层DT模块中的去噪训练过程受到上一层DT模块预测结果的约束,并在扩散模型自约束的基础上,将预测出的句子结构信息和去噪后的全面语义信息作为增强的约束条件训练去噪过程,是一种基于结构与语义信息条件约束的扩散网络非自回归图像描述方法,解决了现有非自回归图像描述方法中单词之间缺乏依赖信息、生成的句子存在严重的单词重复和缺失的问题,能够快速准确地对图像进行描述。另外,本发明还提出了P个候选模型的多次迭代的优化策略,能够大幅提升样本质量与训练效率。
-
公开(公告)号:CN119273916A
公开(公告)日:2025-01-07
申请号:CN202411301917.5
申请日:2024-09-18
Applicant: 华中科技大学
IPC: G06V10/26 , G06V10/40 , G06V10/774 , G06V10/74 , G06V10/762
Abstract: 本发明公开了一种无监督语义分割模型的构建方法、图像语义分割方法及设备,属于图像处理技术领域;基于同类样本成群出现的先验原则,利用ViT网络得到的批内图像中两两图像块之间的互注意力权重寻找每个图像块的图像块特征在整张图像中的潜在相似特征;通过将分割头输出的批内图像各图像块的分割头特征,基于处理后的两两图像块之间的互注意力权重进行聚合,得到批内图像各图像块的分割头聚合特征,并进一步输入至投影头中,得到对应的投影聚合特征;通过特征聚合的方式提高了分割头和投影头特征的表达能力,在给予大概率出现的强势语义充分表达的同时,还给予了小概率出现的弱势语义足够的表达,进而精细准确地实现图像语义分割。
-