说话人相关的端到端语音端点检测方法和装置

    公开(公告)号:CN110136749A

    公开(公告)日:2019-08-16

    申请号:CN201910517374.3

    申请日:2019-06-14

    Abstract: 本发明公开说话人相关的端到端语音端点检测方法和装置,其中,一种说话人相关的端到端语音端点检测方法,包括:提取待检测语音的声学特征;将所述声学特征与i-vector特征进行拼接以作为新的输入特征;将新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的检测结果。本申请的方法和装置通过在传统的语音端点检测系统的训练过程中加入了说话人相关的信息(i-vector),并将深度神经网络(DNN)和长短时记忆神经网络(LSTM)应用到语音端点检测中,实现了端到端的说话人相关的端点检测系统,通过单个网络就可以直接输出目标说话人的语音部分,去除音频中其他的静音段和非目标说话人的语音。

    说话人识别网络模型训练方法、说话人识别方法及系统

    公开(公告)号:CN108417217A

    公开(公告)日:2018-08-17

    申请号:CN201810025592.0

    申请日:2018-01-11

    Abstract: 本发明公开一种说话人识别网络模型训练方法,包括:从训练数据集中获取第i话语三元组并将第i话语三元组输入至卷积神经网络,卷积神经网络对第i话语三元组进行特征提取得到第i话语特征三元组并输入至线性神经网络;将预先获取的第一说话人的第一身份向量信息和第二说话人的第二身份向量信息输入至线性神经网络进行融合处理,以得到融合后的第i话语特征三元组;根据融合后的第i话语特征三元组计算三元组损失,以调整所述网络模型。本发明实施例得到的说话人识别网络模型能够更加准确的实现说话人的识别功能,具有最低的等错误率。

    基于深度学习的说话人语音欺骗攻击检测方法及系统

    公开(公告)号:CN105869630A

    公开(公告)日:2016-08-17

    申请号:CN201610478041.0

    申请日:2016-06-27

    Abstract: 一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经训练的两个线性差分分析模型,将所得到的两个结果分数加权后作为评分,经与预定义阈值比较实现语音欺骗辨别。本发明既能够捕捉局部特征,又能把握全局信息。并且在识别验证阶段采用线性差分分析作为分类器,通过分数融合做出判断,能够极大地提高语音欺骗检测的精确度。

    面向鲁棒语音识别的非侵入式的增强语音失真抑制方法

    公开(公告)号:CN120015048A

    公开(公告)日:2025-05-16

    申请号:CN202510153631.5

    申请日:2025-02-12

    Abstract: 本发明公开一种面向鲁棒语音识别的非侵入式的增强语音失真抑制方法,所述方法包括如下步骤:S1:输入原始复数频谱和增强复数频谱;S2:依据所述步骤S1中的输入获取失真抑制系数;S3:将所述失真抑制系数应用于失真抑制插值算法获取输出修正频谱。本发明通过使用非侵入式的前后端桥接模块,实现计算量小,且可与现有的流式、非流式语音增强模型兼容;增强模型训练需求数据量小,可在少量有标注数据上完成快速适应;不改变增强模型的输出信号,有效保持了不同增强算法对增强语音不同方面的听感增益。

    基于二阶信息的非结构化剪枝压缩的轻量化语音识别方法

    公开(公告)号:CN119207382A

    公开(公告)日:2024-12-27

    申请号:CN202411312981.3

    申请日:2024-09-19

    Inventor: 钱彦旻 顾天腾

    Abstract: 本发明公开了一种基于二阶信息的非结构化剪枝压缩的轻量化语音识别方法,该方法包括如下步骤:对目标语音识别模型每一层不同组成部分进行基于Hessian矩阵给的敏感分析,用于进行混合稀疏度剪枝压缩搜索;根据上述求得的稀疏度从浅至深逐层对模型进行搜索,根据输入数据和模型参数的值计算出每个参数对于模型性能贡献,裁剪掉贡献交底的参数并对剩余参数进行更新;采用循环剪枝产生最终的剪枝压缩模型,剪枝到一个低于目标稀疏度的较低稀疏度,然后对模型进行微调,以此将模型参数修正到最优性能。本发明能够在不牺牲性能的前提下,高效地从预训练的大型语音模型中移除不重要参数,减少了模型的计算和存储需求,在高稀疏条件下具备良好性能。

    一种基于文本表述驱动的说话人生成方法

    公开(公告)号:CN118865941A

    公开(公告)日:2024-10-29

    申请号:CN202411149179.7

    申请日:2024-08-20

    Inventor: 钱彦旻 陈正阳

    Abstract: 本发明公开了一种基于文本表述驱动的说话人生成方法,涉及语音合成领域,包括如下步骤:将文本表述输入到描述编码器,上述文本表述设置为描述说话人的音色特点;描述编码器采用区分性方法和/或生成式方法,将文本表述编码为音色特征向量,并将文本表述和说话人的音色特征映射到同一个空间;将音色特征向量和文本内容输入到多说话人TTS系统,多说话人TTS系统生成对应音色的语音;多说话人TTS系统生成的语音的音色与音色特征向量中编码的音色一致,语音的内容与输入的文本内容一致。本发明可以使用任意文本描述,生成对应音色说话人的表征,这个表征可以用来驱动多说话人系统生成对应音色的语音,能够在保持文本描述和生成质量两个方面达到权衡。

    语音音色转换中的节奏控制方法、电子设备和存储介质

    公开(公告)号:CN118824264A

    公开(公告)日:2024-10-22

    申请号:CN202411148314.6

    申请日:2024-08-20

    Inventor: 钱彦旻 陈正阳

    Abstract: 本发明公开了一种语音音色转换中的节奏控制方法,包括,获取源语音的源语音语义向量和源语音梅尔谱;对源语音进行扰动后,获取源语音的源语音节奏向量;获取参考语音的参考语音语义向量、参考语音节奏向量和参考语音梅尔谱;掩盖部分语音的梅尔谱;建立输出语音梅尔谱,将源语音语义向量和源语音节奏向量补充到输出语音梅尔谱中,通过参考语音的梅尔谱获取音色信息,输出输出语音梅尔谱,完成音色转换。本发明使用掩码并重建的方式进行训练,可以避免对配对数据和干净数据的需求。同时可以使用很简单的方式实现音色转换。

    基于音频振动多特征多层次混合增强的机器故障检测方法

    公开(公告)号:CN118171232A

    公开(公告)日:2024-06-11

    申请号:CN202410275310.8

    申请日:2024-03-11

    Abstract: 本发明公开了一种基于音频振动多特征多层次混合增强的机器故障检测方法,包括:对被检测机器同时采集音频信号和振动信号;对采集到的音频信号和振动信号分别进行傅立叶变换,得到音频频谱特征和振动频谱特征;采用同样架构的深度学习表征提取器对得到的音频频谱特征和振动频谱特征分别进行特征提取,得到音频表征和振动表征;对得到的音频表征和振动表征进行特征融合,得到融合表征。本发明可以更好的检测更多的故障类型,提升模型检测故障的准确率。

    一种基于离散语音标记和离散扩散模型的语音合成系统

    公开(公告)号:CN117995161A

    公开(公告)日:2024-05-07

    申请号:CN202410200402.X

    申请日:2024-02-22

    Inventor: 钱彦旻 张乐莹

    Abstract: 本发明公开了一种基于离散语音标记和离散扩散模型的语音合成系统,涉及语音领域,本发明首先经过说话人特征编码器得到维度为512的说话人特征,音素和说话人特征共同被送入音素编码器,得到音素级别的特征;所述音素级别的特征和所述说话人特征再经过时长预测器,可得到每个音素所对应的时长,通过复制音素相对应的帧的次数,我们就得到了含有时长信息的帧级别特征;所述帧级别特征将作为条件送入离散扩散模型,生成对应的离散的语音标记序列,所述语音标记序列又被进一步送入神经音频解码器,从而得到最终的语音波形。本发明通过使用神经音频编码方案,能够降低输入数据的维度并提高模型效率。

Patent Agency Ranking