-
公开(公告)号:CN106856092B
公开(公告)日:2019-11-15
申请号:CN201510906166.4
申请日:2015-12-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/16
Abstract: 本发明提供了基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,更新各转换矩阵直至前向神经网络模型训练完毕;步骤2)利用前向神经网络模型计算输入词历史的目标词概率;步骤3)将目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在逆序索引中检索关键词,返回命中关键词及其出现的时间。
-
公开(公告)号:CN110085215A
公开(公告)日:2019-08-02
申请号:CN201810064982.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型 在训练数据集上估计N元文法语言模型 最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
-
公开(公告)号:CN110070887A
公开(公告)日:2019-07-30
申请号:CN201810065070.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
-
公开(公告)号:CN108461080A
公开(公告)日:2018-08-28
申请号:CN201710094191.6
申请日:2017-02-21
Applicant: 中兴通讯股份有限公司 , 中国科学院声学研究所
Abstract: 本发明实施例提供了一种基于直连长短时记忆(HLSTM)模型的声学建模方法和装置,所述方法包括:基于预设函数对已随机初始化的HLSTM模型进行训练,并对训练结果进行优化;将训练数据通过经所述优化得到的HLSTM模型进行前向计算;基于所述前向计算的结果和所述预设函数,训练已随机初始化的长短时记忆(LSTM)模型,得到的模型为语音识别系统的声学模型;其中,所述HLSTM模型与所述LSTM模型的网络参数相同。
-
公开(公告)号:CN106847267A
公开(公告)日:2017-06-13
申请号:CN201510885336.5
申请日:2015-12-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101-1)对语音流进行端点检测,去除静音段;步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。
-
公开(公告)号:CN119495321A
公开(公告)日:2025-02-21
申请号:CN202411703134.X
申请日:2024-11-26
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种基于多尺度编码器图网络的伪造语音检测方法及系统,该方法包括:采集训练模型使用的语音信号;使用Wav2Vec模型提取特征;将特征送入图网络进行时频域特征关系建模,将图网络输出的时频特征拼接送入分类层进行真伪分类判决,得到教师模型;使用训练语音训练教师模型;构建学生模型;在学生模型的Transformer层中插入LoRA适配器模块;使用真实样本训练学生模型,其训练目标为教师模型的真实样本分布;采集待测试的目标语音并输入教师模型和学生模型得到隐层特征,并计算余弦相似度,与先验阈值进行比较获得目标语音伪造语音检测结果。本申请的优势在于:提升了伪造语音检测系统的性能和鲁棒性。
-
公开(公告)号:CN119207441A
公开(公告)日:2024-12-27
申请号:CN202411174387.2
申请日:2024-08-26
Applicant: 中国科学院声学研究所
IPC: G10L21/013 , G10L25/30 , G10L25/63
Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。
-
公开(公告)号:CN115457932B
公开(公告)日:2024-10-29
申请号:CN202211077901.1
申请日:2022-09-05
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种韵律边界预测方法及系统,包括:使用标注文本对已有的韵律模型进行训练,得到K个低精度韵律模型;使用K个低精度韵律模型,对无标注文本进行标注,得到K组低精度弱标签;使用HMM增强模型,从K组所述低精度弱标签中,推断增强标签;使用无标注数据集与所述增强标签对基于Bert的韵律边界预测模型进行模型训练,将待预测的无标注数据输入所述基于Bert的韵律边界预测模型,得到对应的预测韵律边界标签。本申请仅利用少量标注数据和大量无标注数据,就可以完成对基于Bert的韵律边界预测模型的高质量训练,减少因数据过少的过拟合问题。
-
公开(公告)号:CN113870893B
公开(公告)日:2024-09-03
申请号:CN202111134595.6
申请日:2021-09-27
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。
-
公开(公告)号:CN114996479B
公开(公告)日:2024-08-09
申请号:CN202210707870.7
申请日:2022-06-21
Applicant: 中国科学院声学研究所
IPC: G06F16/36 , G06F16/332 , G06N3/0464 , G06N3/042 , G06N3/08
Abstract: 本申请提供一种基于增强技术的对话状态追踪方法,包括:获取数据库和已知领域对话状态追踪模型;利用数据增强技术从数据库和已知领域训练样本获取新领域本轮对话文本、上轮对话状态、本轮对话状态标签;使用槽位值类别预测器预测新槽位的类型,输出本轮对话文本编码矩阵;利用特征增强技术对本轮对话文本编码矩阵提取多个上下文特征向量;根据预测的槽位类型、多个上下文特征向量在槽位值解码器中解码得到新槽位值,将上轮对话状态中的槽位值进行更新得到本轮对话状态;比较本轮对话状态与本轮对话状态标签的差异并梯度回传,采用神经网络技术迭代训练对话状态追踪模型以减少差异,该模型能够实现新领域的当前轮次会话状态追踪。
-
-
-
-
-
-
-
-
-