-
公开(公告)号:CN117789771A
公开(公告)日:2024-03-29
申请号:CN202311545240.5
申请日:2023-11-20
Applicant: 中国科学院声学研究所
IPC: G10L25/63 , G10L13/02 , G10L17/04 , G10L19/008
Abstract: 本发明涉及智能数字信号处理领域,具体涉及一种跨语言端到端情感语音合成方法及系统。采用本方法训练深度神经网络模型,可通过给定待合成A语种文本及带有情感的B语种参考语音,合成自然流畅、情感表达良好的A语种目标说话人语音。具体方法包括:采集语音‑文本成对的原始训练数据,提取语音频域特征,离散编码文本,提取语言无关情感嵌入编码,构建完全端到端情感语音合成模型并进行有监督训练。上述语音合成模型内含情感文本融合编码模块、目标时长预测模块、后验编码模块、音频解码模块和判别模块。语音合成模型训练至收敛后,可通过先验编码模块、时长预测模块和音频解码模块推理出所需要的目标说话人情感语音。
-
公开(公告)号:CN112309421B
公开(公告)日:2024-03-19
申请号:CN201910689178.4
申请日:2019-07-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G10L25/45 , G10L25/60
Abstract: 本发明属于语音增强信号处理技术领域,具体涉及一种融合信噪比与可懂度双重目标的语音增强方法,包括:将原始语音信号转换为原始时频域特征;将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征,将语音增强后的时频域特征转换为增强后的语音信号。
-
公开(公告)号:CN116230016A
公开(公告)日:2023-06-06
申请号:CN202310005727.8
申请日:2023-01-04
Applicant: 中国科学院声学研究所
IPC: G10L25/54 , G06F18/213 , G06F18/24 , G06N3/044 , G06N3/0464 , G06N3/08 , G10L25/30 , G10L25/24
Abstract: 本发明实施例公开了一种用于音频事件检测的神经网络系统和方法,所述系统包括,特征提取层、卷积层、循环神经网络、前馈网络以及自注意力模块,通过对提取音频获得的对数梅尔谱特征进行处理获得卷积核空间三个维度的特征图;并通过对三个维度的特征图进行计算确定卷积核空间三个维度的频率自适应注意力权重;基于三个维度的频率自适应注意力权重和基础卷积核进行乘法运算确定频率自适应卷积核;使用频率自适应卷积核对对提取音频获得的对数梅尔谱特征进行多维频率动态卷积处理得到第一输出特征;并对第一输出特征的序列数据进行处理得到第二输出特征;获得所述音频的强标签和弱标签。
-
公开(公告)号:CN116189715A
公开(公告)日:2023-05-30
申请号:CN202211594426.5
申请日:2022-12-13
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种利用咳嗽声检测肺部疾病的方法,所述方法具体包括:去除原始咳嗽音频中非咳嗽音片段,得到咳嗽音频,以及该咳嗽音频中各单个咳嗽片段的起始和结束时间;依据各单个咳嗽片段的起始和结束时间,分别生成各单个咳嗽片段对应的对数梅尔普矩阵,并分别计算各单个咳嗽片段对应的位置编码矩阵;依据各单个咳嗽片段对应的对数梅尔普矩阵和位置编码矩阵,得到所述咳嗽音频的特征矩阵;将咳嗽音频的特征矩阵归一化后乘比例因子,将得到的乘积与咳嗽音频的特征矩阵相加后输入分类网络分类。还涉及了装置,包括:咳嗽音检测单元、音频信号处理单元、拼接单元、归一化单元和分类网络单元。本发明的方法和装置,能够提高检测结果的准确度。
-
公开(公告)号:CN111754976B
公开(公告)日:2023-03-07
申请号:CN202010705955.2
申请日:2020-07-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。
-
公开(公告)号:CN112820301B
公开(公告)日:2023-01-20
申请号:CN202110277452.4
申请日:2021-03-15
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。
-
公开(公告)号:CN110895932B
公开(公告)日:2022-05-03
申请号:CN201810974049.5
申请日:2018-08-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
-
公开(公告)号:CN113763987A
公开(公告)日:2021-12-07
申请号:CN202111052652.6
申请日:2021-09-06
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供一种语音转换模型的训练方法及装置,方法包括:对样本音频进行特征提取,得到梅尔谱特征标签及基频序列;将梅尔谱特征标签输入编码器,得到第一内容向量;将第一内容向量输入瓶颈层,得到当前码本向量及第二内容向量;基于第一内容向量和当前码本向量,确定第一损失值;将第一内容向量输入感知机层,得到第一内容向量对应的各字符或空白符的发射概率;基于样本音频的转录文本标签及发射概率,确定第二损失值;将归一化后的基频序列、第二内容向量及样本音频的说话人标签,输入解码器,得到预测梅尔谱特征;基于梅尔谱特征标签及预测梅尔谱特征,确定第三损失值;以最小化上述损失值为目标,训练语音转换模型。
-
公开(公告)号:CN113724740A
公开(公告)日:2021-11-30
申请号:CN202111005905.4
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及音频检测技术领域,提供了一种音频事件检测模型训练方法及装置,方法包括:对大师模型、教师模型、学生模型进行多次迭代,将满足迭代结束条件的学生模型作为音频事件检测模型;其中,在每次迭代中,对大师和教师模型的输出动态校正,为无标注数据生成伪标签;利用音频事件标签、大师模型的输出、老师模型的输出,迭代教师模型;根据教师模型参数更新大师模型的参数;用音频事件标签和伪标签迭代学生模型。本实施例的技术方案,通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正,可以提高无标注样本的利用效率,提升伪标签的正确率,从而提升音频事件检测的准确性。
-
公开(公告)号:CN108269568B
公开(公告)日:2021-07-30
申请号:CN201710002096.9
申请日:2017-01-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种基于CTC的声学模型训练的方法,该方法包括:步骤1、训练一个初始的GMM模型,用该GMM模型对训练数据的文本标注进行时间点强制对齐,得到每个音素所对应的时间区域;步骤2、在每个音素后插入一个与该音素相关的“空白”符号,每个音素拥有一个特有的“空白”符号;步骤3、采用有限状态机,对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图;步骤4、根据时间对齐结果,对每个音素出现的时间范围进行限制,并对该搜索路径图进行剪枝,将音素位置超出时间限制的路径减掉,得到最终CTC计算网络误差时所需的搜索路径图;步骤5、采用延时神经网络(Time‑delay Neural Network,TDNN)结构结合CTC方法进行声学模型训练,得到最终的TDNN‑CTC声学模型。
-
-
-
-
-
-
-
-
-