基于深度学习的说话人语音欺骗攻击检测方法及系统

    公开(公告)号:CN105869630B

    公开(公告)日:2019-08-02

    申请号:CN201610478041.0

    申请日:2016-06-27

    Abstract: 一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经训练的两个线性差分分析模型,将所得到的两个结果分数加权后作为评分,经与预定义阈值比较实现语音欺骗辨别。本发明既能够捕捉局部特征,又能把握全局信息。并且在识别验证阶段采用线性差分分析作为分类器,通过分数融合做出判断,能够极大地提高语音欺骗检测的精确度。

    音频数据识别方法及系统

    公开(公告)号:CN108389575A

    公开(公告)日:2018-08-10

    申请号:CN201810025834.6

    申请日:2018-01-11

    Abstract: 本发明实施例提供一种音频数据识别方法。该方法包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据各帧音频数据帧的预测概率集合,确定各帧音频数据帧的类型;通过非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧来确定非空白音频数据帧的最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别音频数据。本发明实施例还提供一种音频数据识别系统。本发明实施例的音频数据识别方法可用于任意声学模型,并且进一步提升了识别速度。

    基于单向自标注辅助信息的多视角语言识别方法

    公开(公告)号:CN107452374A

    公开(公告)日:2017-12-08

    申请号:CN201710561261.4

    申请日:2017-07-11

    Abstract: 一种基于单向自标注辅助信息的多视角语言识别方法,首先通过标注模型对当前词和词层面的辅助信息进行自标注,得到当前词的自标注辅助特征的概率分布;然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征,从而将双向辅助信息转换为单向辅助信息;再将单向辅助信息和当前词一起输入多视角语言模型进行解析,得到当前词的准确语义。本发明通过将多视角神经网络中的词层面的辅助特征,从而消除后文信息造成的负面影响,采用多种不同的词层面的辅助信息,引入具有树形结构的词层面辅助特征进行多视角语言模型训练,并且在标注模型和语言模块分别使用稳定算子来调整不同的适应各自的学习率等特点。

    一种适用于多种输入场景的通用语音增强系统

    公开(公告)号:CN118197334A

    公开(公告)日:2024-06-14

    申请号:CN202410259638.0

    申请日:2024-03-07

    Inventor: 钱彦旻 张王优

    Abstract: 本发明公开了一种适用于多种输入场景的通用语音增强系统,涉及语音领域,包括基于自适应调节的短时傅立叶变换STFT的编码器,基于Transformer架构的时频双路建模的核心模块,基于自适应调节的短时傅立叶逆变换iSTFT的解码器;针对不同采样率的输入,所述编码器和解码器的窗口大小和窗口移动步长会根据输入采样率进行调整;针对不同麦克风通道数量的语音信号,采用了Transform‑Attention‑Concatenate,即TAttC技术,并用它来进行与麦克风数量无关的通道间建模;本系统在模型中维护了一组可更新的记忆槽memory token;在处理每个片段时,模型会利用记忆槽中保存的信息,并在处理完成后更新记忆槽。本系统采用自适应调节的STFT、TAttC技术,增强了泛化性。

    一种使用多层次域适配器的鲁棒跨域说话人验证方法

    公开(公告)号:CN117831539A

    公开(公告)日:2024-04-05

    申请号:CN202410056846.0

    申请日:2024-01-15

    Abstract: 本发明公开了一种使用多层次域适配器的鲁棒跨域说话人验证方法,涉及说话人验证领域。本发明首先细化领域标签以获得更好的领域信息,其次在模型中加入多层次域适配器以提升跨域学习性能;并使用领域分类器实现未见领域的有效泛化。本发明实现多层次适配器之间的互补性,提升了说话人验证系统的性能。

    一种构建语言模型的方法、输入法及系统

    公开(公告)号:CN108108428B

    公开(公告)日:2020-05-12

    申请号:CN201711367409.7

    申请日:2017-12-18

    Inventor: 俞凯 钱彦旻 刘奇

    Abstract: 本发明公开一种构建语言模型的方法,包括:获取文本数据中的句子的未来向量,句子的未来向量为句子反向之后所提取的向量;以文本数据中的句子中的前文为第一输入,以句子的未来向量作为第一输出,训练得到未来向量预测网络;至少以将所述句子中的前文输入未来向量预测网络的输出值作为第二输入,以句子的前文的后续词语为第二输出,训练得到主神经网络;基于未来向量预测网络和主神经网络生成所述语言模型。在本发明通过综合考虑已知前文和相应于已知前文的未来向量的方式来构建语言模型,使得所构建的语言模型能够从整个句子层面(未来向量)结合当前前文信息来预测后续词语,提高了预测的准确性与可靠性。

    儿童语音识别模型的训练方法及系统

    公开(公告)号:CN110706692A

    公开(公告)日:2020-01-17

    申请号:CN201911000370.4

    申请日:2019-10-21

    Abstract: 本发明实施例提供一种儿童语音识别模型的训练方法。该方法包括:获取训练数据;通过基线声学模型训练得到无条件生成对抗网络;将随机噪声数据输入无条件生成对抗网络,得到噪声增强声学特征;将噪声增强声学特征输入至基线声学模型,得到每一帧噪声增强声学特征对应的后验概率软标签;至少将噪声增强声学特征和软标签以及儿童语音训练数据和硬标签作为样本训练数据训练儿童语音增强声学识别模型。本发明实施例还提供一种儿童语音识别模型的训练系统。本发明实施例在儿童语音有限的情况下,改变了儿童语音的发音本质,生成多样化的儿童语音,提高儿童语音识别模型的识别准确率。

    用于单通道的语音识别模型的优化方法及系统

    公开(公告)号:CN110246487A

    公开(公告)日:2019-09-17

    申请号:CN201910511791.7

    申请日:2019-06-13

    Abstract: 本发明实施例提供一种用于单通道的语音识别模型的优化方法。该方法包括:接收各带有真实标签向量的单人语音,多人混合语音,将从各单人语音提取的语音特征输入至目标教师模型,得到各单人语音对应的目标软标签向量;将多人混合语音输入至端到端学生模型,确定输出排列;根据确定输出排列的多人混合语音内每个人的输出标签向量,确定知识蒸馏损失和直接损失;当根据知识蒸馏损失和直接损失确定的联合误差未收敛时,根据联合误差对端到端学生模型进行优化。本发明实施例还提供一种用于单通道的语音识别模型的优化系统。本发明实施例能够更容易学习出好的参数,同时模型较为精简,更好的参数使其训练的学生模型有着更好的性能。

    欺骗录音检测神经网络模型的优化方法及系统

    公开(公告)号:CN110223676A

    公开(公告)日:2019-09-10

    申请号:CN201910516188.8

    申请日:2019-06-14

    Abstract: 本发明实施例提供一种欺骗录音检测神经网络模型的优化方法。该方法包括:基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型;将源域数据以及目标域数据输入至特征提取器;将特征提取器的输出分别输入至欺骗检测器和领域预测器,通过训练欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和领域预测器的损失函数值;基于降低后的领域预测器的损失函数值对特征提取器进行对抗训练,使特征提取器输出到欺骗检测器的深度特征为域不变和欺骗检测区别的特征。本发明实施例还提供一种欺骗录音检测神经网络模型的优化系统。本发明实施例优化的模型在录音攻击检测中没有区分领域预测的能力,提高跨领域测试的泛化性能。

Patent Agency Ranking