-
公开(公告)号:CN116432661A
公开(公告)日:2023-07-14
申请号:CN202310409878.X
申请日:2023-04-13
Applicant: 北京大学深圳研究生院
IPC: G06F40/30 , G06F16/33 , G06N3/045 , G06N3/0455 , G06N3/042 , G06N3/0464 , G10L25/03 , G10L25/27 , G10L25/51
Abstract: 本申请提供了一种音频文本匹配方法及装置,属于人工智能技术领域。该方法包括:获取N个音频‑文本对,各音频‑文本对包括音频及文本;通过分层文本编码器对文本进行编码,得到全局文本特征,根据文本构建语义关系图,并根据语义关系图采用图推理获取局部文本特征;通过分层音频编码器采用不同编码权重分别对音频进行计算,得到全局音频特征及局部音频特征;通过音频文本匹配模块根据全局音频特征、局部音频特征、全局文本特征及局部文本特征的映射结果进行匹配,得到全局匹配结果及局部匹配结果,根据全局匹配结果及局部匹配结果获取整体跨模态相似度。通过捕获全局和局部的跨模态信息,提高跨模态的检索精确率。