-
公开(公告)号:CN114783425A
公开(公告)日:2022-07-22
申请号:CN202210326775.2
申请日:2022-03-30
Applicant: 中国科学院声学研究所
Abstract: 本申请涉及一种基于私有参数的语音识别联邦学习方法和系统,应用于中心端和多个客户端,在所述中心端,所述方法包括:利用本地有标注语音样本进行有监督地训练语音识别模型,获得所述语音识别模型的种子模型;根据所述种子模型确定第一私有参数和第一共享参数;根据多个第二共享参数更新所述第一共享参数;所述多个第二共享参数由多个客户端上传得到;将更新后的所述第一共享参数传递至所述多个客户端中每个客户端。本申请实施例利用模型中的私有参数实现对每个客户端的个性化建模,从而可以通过一次训练产生针对多个客户端的个性化语音识别模型,有效提升语音识别模型在每个客户端的性能。
-
公开(公告)号:CN110858477B
公开(公告)日:2022-05-03
申请号:CN201810916756.9
申请日:2018-08-13
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i‑vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i‑vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i‑vector补偿网络,获得补偿后的i‑vector;步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。
-
公开(公告)号:CN110827809B
公开(公告)日:2022-03-08
申请号:CN201810916757.3
申请日:2018-08-13
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种基于条件生成式对抗网络的语种识别分类方法,该方法具体包括:步骤1)利用现有的DBF‑DNN语种识别系统,获得训练集的i‑vector和测试集的i‑vector;步骤2)建立并训练生成模型G和判别模型D,构建CGAN分类器;步骤3)训练CGAN分类器,获得训练后的CGAN分类器;步骤4)将待识别的语种特征输入至训练后的CGAN分类器的判别模型D中,判定其语种类别,并统计语种类别的数目。
-
公开(公告)号:CN111352075B
公开(公告)日:2022-01-25
申请号:CN201811564007.0
申请日:2018-12-20
Applicant: 中国科学院声学研究所
IPC: G01S5/22
Abstract: 本发明公开了一种基于深度学习的水下多声源定位方法及系统,所述方法包括:通过水听器阵列接收待检测的信号,估计声源的方位;在可能存在声源的方位上做子阵波束形成,然后计算待检测信号的空间相关矩阵,形成特征向量,输入到预先训练的时延神经网络,输出声源的距离。本发明的水下多声源定位方法,可以不依赖环境参数的先验知识;利用子阵波束形成的方法在特征层面将多个声源区分开,从而实现对水下多个目标同时定位。
-
公开(公告)号:CN108198571B
公开(公告)日:2021-07-30
申请号:CN201711394223.0
申请日:2017-12-21
Applicant: 中国科学院声学研究所 , 腾讯科技(北京)有限公司
IPC: G10L21/038 , G10L21/0208 , G10L25/18 , G10L25/30 , G10L25/93
Abstract: 本发明公开了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;步骤3)对信号y(n)的进行带宽扩展,然后输出。本发明的方法及系统在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展。
-
公开(公告)号:CN113066510A
公开(公告)日:2021-07-02
申请号:CN202110455748.0
申请日:2021-04-26
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种元音弱读检测方法及装置。该方法包括:提取用户朗读目标文本的语音信号的声学特征,并对声学特征进行编码,获得的声学编码向量序列;然后,将目标文本对应的带重音标签的音素序列作为发音先验信息,采用联结主义时间分类(Connectionisttemporal classification,CTC)和注意力相结合的解码方法进行解码,最后采用波束搜索方法获得最终的带元音弱读标签的音素序列。本申请将带重音标签的音素序列作为发音先验信息,辅助元音弱读检测,可提高检测的准确度;解码时采用CTC和注意力联合解码方法,解决了元音弱读情况下,采用强制对齐会导致检测的准确率下降的问题。
-
公开(公告)号:CN113030862A
公开(公告)日:2021-06-25
申请号:CN202110268660.8
申请日:2021-03-12
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种多通道语音增强方法及装置。该方法包括:对多通道语音频域信号做去混响处理;然后根据多通道语音频域信号中声源的方位信息构建复角中心高斯混合概率模型,并通过复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;进行通过获得的时频掩蔽矩阵获得最小方差无失真滤波器并对多通道语音频域信号进行滤波,以及通过目标语音时频掩蔽矩阵对信号进行后滤波,获得最终的目标语音。该方法通过方位信息构建复角中心高斯混合概率模型,解决了模型无序输出时频掩蔽导致目标语音和噪声发生置换的问题,此外,去混响处理以及利用目标语音时频掩蔽进行后滤波处理,提升了目标语音的可懂度。
-
公开(公告)号:CN112951264A
公开(公告)日:2021-06-11
申请号:CN201911257725.8
申请日:2019-12-10
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0272 , G10L21/0232 , G10L21/0216 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
-
公开(公告)号:CN110085215B
公开(公告)日:2021-06-08
申请号:CN201810064982.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型在训练数据集上估计N元文法语言模型最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
-
公开(公告)号:CN110070887B
公开(公告)日:2021-04-09
申请号:CN201810065070.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
-
-
-
-
-
-
-
-
-