一种图像描述模型的构建方法、图像描述方法及设备

    公开(公告)号:CN119295770A

    公开(公告)日:2025-01-10

    申请号:CN202411301962.0

    申请日:2024-09-18

    Abstract: 本发明公开了一种图像描述模型的构建方法、图像描述方法及设备,属于图像处理技术领域;本发明设计了一种包括多层DT模块级联的DT模型,通过多层DT模块级联来保证下一层DT模块中的去噪训练过程受到上一层DT模块预测结果的约束,并在扩散模型自约束的基础上,将预测出的句子结构信息和去噪后的全面语义信息作为增强的约束条件训练去噪过程,是一种基于结构与语义信息条件约束的扩散网络非自回归图像描述方法,解决了现有非自回归图像描述方法中单词之间缺乏依赖信息、生成的句子存在严重的单词重复和缺失的问题,能够快速准确地对图像进行描述。另外,本发明还提出了P个候选模型的多次迭代的优化策略,能够大幅提升样本质量与训练效率。

Patent Agency Ranking