-
公开(公告)号:CN119903203A
公开(公告)日:2025-04-29
申请号:CN202411890626.4
申请日:2024-12-20
Applicant: 南昌大学
IPC: G06F16/583 , G06F16/532 , G06F16/383 , G06F16/332 , G06V20/68 , G06V10/44 , G06N3/045 , G06N3/0464
Abstract: 本发明涉及人工智能和机器学习的跨学科研究领域,尤其涉及。本发明提供了一种跨模态食品检索方法,重点是在图像编码器与食谱编码器的基础上增加多粒度交互编码器构建TE I框架,将给定的图像‑文本配对数据分别输入到图像编码器与食谱编码器进行训练学习,图像编码器提取全局视觉特征,食谱编码器提取层次化特征并使用线性层获得全局食谱特征,多粒度交互编码器提取多粒度特征,所述层次化特征与多粒度特征计算成对的自注意力并取平均值得多粒度交互特征,基于层次化语义对齐损失函数对齐两种模态之间的相关性。目的是探索图像和文本模态之间的多粒度互动相关性,以提高跨模态检索性能。