-
公开(公告)号:CN116821381A
公开(公告)日:2023-09-29
申请号:CN202311104574.9
申请日:2023-08-30
Applicant: 北京科技大学
IPC: G06F16/432 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06F16/435
Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理能力。
-
公开(公告)号:CN116821381B
公开(公告)日:2023-12-01
申请号:CN202311104574.9
申请日:2023-08-30
Applicant: 北京科技大学
IPC: G06F16/432 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06F16/435
Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理
-