一种基于语音离散化和声码器的目标说话人抽取系统

    公开(公告)号:CN117912469A

    公开(公告)日:2024-04-19

    申请号:CN202410130424.3

    申请日:2024-01-30

    Abstract: 本发明公开了一种基于语音离散化和声码器的目标说话人抽取系统,涉及语音识别技术领域,包括预训练语音离散模块、离散标记预测模块和语音生成模块,其中,所述预训练语音离散模块用于将语音数据离散化为离散标记序列,所述离散标记预测模块根据所述离散标记序列输出预测离散标记序列,所述语音生成模块根据所述预测离散标记序列输出目标说话人的干净语音。本发明使用离散标记序列的声码器生成的语音,在听感上更好,对人耳更加友好,同时不存在残留干扰。

    基于变分自编码器与高斯混合模型的无监督目标检测方法及系统

    公开(公告)号:CN113255830A

    公开(公告)日:2021-08-13

    申请号:CN202110683176.1

    申请日:2021-06-21

    Abstract: 一种基于变分自编码器与高斯混合模型的无监督目标检测方法和系统,通过骨干网络将输入图像转化一个H*W维度,即H*W个单元格的特征图,再将该特征图编码为先验分布符合高斯混合模型的隐变量,然后由解码器根据隐变量进行图像重构,并将重构的图像与输入图像进行比较并计算损失函数,从而训练神经网络,编码器得到图像中物体的类别与位置等信息,从而实现无监督目标检测。本发明结合了空间注意力机制和高斯混合模型,不仅能够实现端到端的目标检测与分类,同时在存在大量物体的情况下仍有较好的性能,具有较好的扩展性。

Patent Agency Ranking