一种基于协调简单注意力机制的两阶段语音分离方法

    公开(公告)号:CN117711421A

    公开(公告)日:2024-03-15

    申请号:CN202311339818.1

    申请日:2023-10-17

    Applicant: 安徽大学

    Abstract: 本发明公开一种基于协调简单注意力机制的两阶段语音分离方法,获取说话者的视频数据集以及对应音频数据集,构造混合音频以及音频频谱图;构建基于协调简单注意力机制的两阶段语音分离模型;两阶段语音分离模型语音分离的推理过程中,先将预测的掩模与输入的频谱图相乘来预测语音频谱图,然后使用逆短时傅里叶反变换将其转换为最终分离的语音信号。本发明第一阶段先粗分离,第二阶段精细分离来去除第一阶段分离后音频存在其他音频噪声问题;针对分离后的音频存在部分音频片段缺失问题,本发明使用恢复融合模块来恢复缺失的音频片段;本发明提出协调简单注意力机制可以使音频和对应视觉信息更好地相关关联,以实现更精确的分离结果。

    一种多图像查询车辆重识别方法、设备及存储介质

    公开(公告)号:CN117708355A

    公开(公告)日:2024-03-15

    申请号:CN202311699903.9

    申请日:2023-12-11

    Applicant: 安徽大学

    Abstract: 一种多图像查询车辆重识别方法、设备及存储介质,属于车辆重识别技术领域,解决如何提高多张车辆图像检索的效果的问题,本发明利用了Transformer擅长捕获长距离依赖关系和不同特征提取阶段关注范围的逐渐增加的特点,提取了多张车车辆图像的融合特征;此外,为了提高每个视角的全局特征提取能力通过设计提出多分支视角独有特征提取模块,每个分支仅仅提取某一视角车辆图像的特征,使得分支网络能够更加擅长捕获在某一视角的车辆全局特征,在最终的距离度量阶段,引入了独有视角全局特征辅助距离计算,来提高网络识别的性能,提高了多图像查询车辆重识别效果,保证了模型的鲁棒性。

Patent Agency Ranking