一种基于自注意力机制的声源定位方法

    公开(公告)号:CN119479687A

    公开(公告)日:2025-02-18

    申请号:CN202411189082.9

    申请日:2024-08-28

    Inventor: 张瑞 沈希忠

    Abstract: 本发明公开了一种基于自注意力机制的声源定位方法,通过将输入的多通道音频信号分成不重叠的时间块,对于每个通道,将幅度谱图和相位谱图连接起来形成特征张量,得到特征图;将特征图输入到卷积神经网络CNN中进行特征提取,对第一特征进行位置编码,通过线性变化将第二序列特征映射到查询键和值矩阵;计算查询和键之间的点积,将标准深层特征输入到一个FFN前馈神经网络中,进行两次线性变化和一次ReLU激活,得到目标深层特征;将目标深层特征出入到一个全连接层,得到声源位置在三维空间中的DOA轨迹预测值。可以更有效地捕捉和建模音频信号中的全局上下文信息,从而提高声源定位的准确性。

Patent Agency Ranking