-
公开(公告)号:CN107293291B
公开(公告)日:2021-03-16
申请号:CN201610192763.X
申请日:2016-03-30
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种基于自适应学习率的端到端的语音识别方法,包括:步骤(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层和所述反向递归神经网络隐层再采用长短时记忆单元分别替代和得到神经网络的最终输出,即y;步骤(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用CTC准则,引入了blank符号辅助对齐,构建和计算目标函数;对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;步骤(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述参数集合w进行更新。
-
公开(公告)号:CN111938691A
公开(公告)日:2020-11-17
申请号:CN202010829479.5
申请日:2020-08-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。
-
公开(公告)号:CN111833886A
公开(公告)日:2020-10-27
申请号:CN202010731632.0
申请日:2020-07-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。
-
公开(公告)号:CN111179920A
公开(公告)日:2020-05-19
申请号:CN201911415037.X
申请日:2019-12-31
Applicant: 中国科学院声学研究所
IPC: G10L15/20 , G10L21/02 , G10L21/0216
Abstract: 本发明提供一种端到端远场语音识别方法及系统。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
-
公开(公告)号:CN110867178A
公开(公告)日:2020-03-06
申请号:CN201810986855.4
申请日:2018-08-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。
-
公开(公告)号:CN108198571A
公开(公告)日:2018-06-22
申请号:CN201711394223.0
申请日:2017-12-21
Applicant: 中国科学院声学研究所 , 腾讯科技(北京)有限公司
IPC: G10L21/038 , G10L21/0208 , G10L25/18 , G10L25/30 , G10L25/93
Abstract: 本发明公开了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;步骤3)对信号y(n)的进行带宽扩展,然后输出。本发明的方法及系统在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展。
-
公开(公告)号:CN106856095A
公开(公告)日:2017-06-16
申请号:CN201510904230.5
申请日:2015-12-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种拼音拼读的发音质量评测系统,所述系统包括:前端处理模块、强制对齐模块、发音评测模块、声调评测模块和评测输出模块;所述前端处理模块,用于对输入的拼音拼读语音进行端点检测、声学特征的提取及规整;所述强制对齐模块,用于使用强制对齐技术把所述前端处理模块处理后的语音切分为若干个音素段,获取每个音素的开始时间和截止时间;所述发音评测模块,用于利用发音良好度计算每段音素的后验概率;所述声调评测模块,用于对每段音素的声调进行识别,并判断识别结果与正确声调是否一致,给出声调质量的评估值,所述评测输出模块,用于对音评测模块和声调评测模块输出的评测结果进行综合,得到整体的评测结果,并反馈给用户。
-
公开(公告)号:CN106856092A
公开(公告)日:2017-06-16
申请号:CN201510906166.4
申请日:2015-12-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/16
Abstract: 本发明提供了基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,更新各转换矩阵直至前向神经网络模型训练完毕;步骤2)利用前向神经网络模型计算输入词历史的目标词概率;步骤3)将目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在逆序索引中检索关键词,返回命中关键词及其出现的时间。
-
公开(公告)号:CN106847268A
公开(公告)日:2017-06-13
申请号:CN201510881044.4
申请日:2015-12-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种神经网络声学模型的压缩方法,所述方法包括:将神经网络声学模型的输出层权值矩阵W的行向量按照指定的维数划分为若干个子向量;对若干个子向量进行一级矢量量化,获得一级码本,用一级码本向量代替矩阵W的子向量,得到矩阵W*;利用矩阵W和W*,计算残差矩阵R,并对R的向量进行二级矢量量化;获得二级码本,用二级码本向量代替矩阵R的向量,得到矩阵R*;最后用矩阵W*和R*表示权值矩阵W。本发明的方法能够降低神经网络声学模型的存储空间,同时大大降低量化误差,避免了码本规模呈指数增长。
-
公开(公告)号:CN120071891A
公开(公告)日:2025-05-30
申请号:CN202510203115.9
申请日:2025-02-24
Applicant: 中国科学院声学研究所
Abstract: 本申请提供一种零样本语音克隆方法和装置,包括利用文本编码器和说话人编码器中,得到第一声学特征和第二声学特征,利用第二声学特征、第一声学特征、目标Mel谱和训练用参考音频的Mel谱,采用流匹配方法训练细节编码器,最终得到零样本语音克隆模型,将待合成音频的参考音频和待合成音频文本输入零样本语音克隆模型中,最终得到待合成音频。本发明不需要大量的文本和语音配对数据,使用与真实语音声学特征有明确对应关系的特征作为训练集训练模型,提高了生成样本的准确度,并且还考虑了语音合成中的多个关键因素,包括文本内容、说话人特征以及语音的韵律信息,通过先进的神经网络结构和训练策略,实现了高质量的零样本语音合成。
-
-
-
-
-
-
-
-
-