一种多人语音环境下的目标语音实时分离方法

    公开(公告)号:CN116259331A

    公开(公告)日:2023-06-13

    申请号:CN202310273149.6

    申请日:2023-03-20

    Inventor: 陈家峥 张斌

    Abstract: 本发明公开了一种基于CNN和BiLSTM网络的多人语音环境下的目标语音实时分离方法,其实现了在多人混合语音中,实时分离出目标说话人语音,兼顾语音分离和语音活动检测的任务。首先提出使用音频流中帧级声学特征和d‑vector深度嵌入码拼接作为融合特征,使网络在长时间上下文中不仅可以关注到声学特征的时序变化,还可以关注到深度声纹特征的异同。其次,搭建SD‑VAD网络,通过使用较少层的CNN和BiLSTM结构,使网络拥有更强大的特征提取能力,同时严格控制网络参数量,保证语音分离的实时性。此外,基于本发明提出的类内加权损失函数,通过对网络不同的分类错误施加不同的惩罚,使网络更关注目标说话人类的分类精度,并最大程度保留目标语音,使之减少被错误的过滤掉。

    一种用于车辆自动滑移门的声纹身份验证方法

    公开(公告)号:CN116486820A

    公开(公告)日:2023-07-25

    申请号:CN202310273308.2

    申请日:2023-03-20

    Inventor: 陈家峥 张斌

    Abstract: 本发明公开了一种用于车辆自动滑移门的声纹身份验证方法,首先搭建基于改进ECAPA‑TDNN的声纹识别模型,使用了依赖于通道和上下文的注意力机制,关注每个特征图在不同时间步长上的特征属性。通过挤压激励块和Res2Net的结合,构建分层残差连接来处理多尺度特征。此外,在网络的底层引入不同时间上下文大小的多时延单元扫描输入序列,对模型在时间维度上的多尺度特征提取能力进行增强。在模型训练方面,针对训练数据应用了多角度的数据增强策略,以提高预训练模型的鲁棒性;在后端余弦相似度打分部分结合了动态分数归一化方法,减少了注册语音和测试语音之间的得分受到环境差别、语义内容不同等因素的影响。在模型的使用上,通过匹配系统注册阶段和验证阶段获得的声纹嵌入码,计算分数,高于设定阈值则控制门锁有刷电机驱动输出模块执行开锁动作。

Patent Agency Ranking