音频文本匹配方法及装置
    1.
    发明公开

    公开(公告)号:CN116432661A

    公开(公告)日:2023-07-14

    申请号:CN202310409878.X

    申请日:2023-04-13

    Inventor: 赵怡雯 邹月娴

    Abstract: 本申请提供了一种音频文本匹配方法及装置,属于人工智能技术领域。该方法包括:获取N个音频‑文本对,各音频‑文本对包括音频及文本;通过分层文本编码器对文本进行编码,得到全局文本特征,根据文本构建语义关系图,并根据语义关系图采用图推理获取局部文本特征;通过分层音频编码器采用不同编码权重分别对音频进行计算,得到全局音频特征及局部音频特征;通过音频文本匹配模块根据全局音频特征、局部音频特征、全局文本特征及局部文本特征的映射结果进行匹配,得到全局匹配结果及局部匹配结果,根据全局匹配结果及局部匹配结果获取整体跨模态相似度。通过捕获全局和局部的跨模态信息,提高跨模态的检索精确率。

Patent Agency Ranking