Patent search ap:("北京科技大学") AND inv:"王雨桐" Page 1

1.

发明公开
一种基于空间线索的语音-图像跨模态检索方法及装置有权

公开(公告)号：CN116821381A

公开(公告)日：2023-09-29

申请号：CN202311104574.9

申请日：2023-08-30

Applicant: 北京科技大学

Inventor： 钱馨园 , 高天浩 , 王雨桐 , 魏丽芳 , 刘艳 , 殷绪成

IPC: G06F16/432 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06F16/435

Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置，涉及计算机视觉和语音处理技术领域。包括：将语音信号输入到音频编码器，得到空间相关的声学特征；将图像信息输入到图像编码器，得到场景图像特征；对特征进行CSIR，得到跨模态检索结果。本发明通过使用深度学习和相关算法，能够对图像和语音之间的空间关联性进行分析与建模，从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同，本发明重点关注不同模态之间的空间语义一致性，通过深入研究图像和语音之间的空间属性联系，本发明可以帮助用户更高效地检索相关的图像和语音内容，提供更好的交互体验和信息管理能力。

2.

发明授权
一种基于空间线索的语音-图像跨模态检索方法及装置有权

公开(公告)号：CN116821381B

公开(公告)日：2023-12-01

申请号：CN202311104574.9

申请日：2023-08-30

Applicant: 北京科技大学

Inventor： 钱馨园 , 高天浩 , 王雨桐 , 魏丽芳 , 刘艳 , 殷绪成

IPC: G06F16/432 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06F16/435

Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置，涉及计算机视觉和语音处理技术领域。包括：将语音信号输入到音频编码器，得到空间相关的声学特征；将图像信息输入到图像编码器，得到场景图像特征；对特征进行CSIR，得到跨模态检索结果。本发明通过使用深度学习和相关算法，能够对图像和语音之间的空间关联性进行分析与建模，从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同，本发明重点关注不同模态之间的空间语义一致性，通过深入研究图像和语音之间的空间属性联系，本发明可以帮助用户更高效地检索相关的图像和语音内容，提供更好的交互体验和信息管理

Patent Agency Ranking