一种基于变分自编码器的多说话人语音合成方法

    公开(公告)号:CN112289304A

    公开(公告)日:2021-01-29

    申请号:CN201910671050.5

    申请日:2019-07-24

    Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。

    一种基于神经网络中间层特征滤波的音频信号分类方法

    公开(公告)号:CN111354373A

    公开(公告)日:2020-06-30

    申请号:CN201811572720.X

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。

    一种基于自注意力的汉语韵律层级预测方法及系统

    公开(公告)号:CN111354333A

    公开(公告)日:2020-06-30

    申请号:CN201811571546.7

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于自注意力的汉语韵律层级预测方法,所述方法包括:对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。本发明的方法利用韵律层级预测模型进行汉语韵律层级预测,在保证预测性能的同时以字粒度的特征作为输入,避免了对于分词系统的依赖及其可能造成的负面影响,该模型利用自注意力机制,直接对文本中任意两个字间的关系建模,可实现并行化计算;并利用额外数据进行预训练提高模型性能,实现对待处理文本各韵律层级同时准确的预测,避免了错误的传递。

    一种神经网络声学模型压缩及语音识别方法

    公开(公告)号:CN106847268B

    公开(公告)日:2020-04-24

    申请号:CN201510881044.4

    申请日:2015-12-03

    Abstract: 本发明提供了一种神经网络声学模型的压缩方法,所述方法包括:将神经网络声学模型的输出层权值矩阵W的行向量按照指定的维数划分为若干个子向量;对若干个子向量进行一级矢量量化,获得一级码本,用一级码本向量代替矩阵W的子向量,得到矩阵W*;利用矩阵W和W*,计算残差矩阵R,并对R的向量进行二级矢量量化;获得二级码本,用二级码本向量代替矩阵R的向量,得到矩阵R*;最后用矩阵W*和R*表示权值矩阵W。本发明的方法能够降低神经网络声学模型的存储空间,同时大大降低量化误差,避免了码本规模呈指数增长。

    基于语言种类和语音内容协同分类的多语言语音识别方法

    公开(公告)号:CN110895932A

    公开(公告)日:2020-03-20

    申请号:CN201810974049.5

    申请日:2018-08-24

    Abstract: 本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。

    一种基于迁移神经网络声学模型的语音识别系统及方法

    公开(公告)号:CN110070855A

    公开(公告)日:2019-07-30

    申请号:CN201810077556.9

    申请日:2018-01-23

    Abstract: 本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。

    一种基于长短时记忆网络的语言模型重估方法

    公开(公告)号:CN106803422A

    公开(公告)日:2017-06-06

    申请号:CN201510844693.7

    申请日:2015-11-26

    Abstract: 本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。

    利用音频判别模型对音频进行判别的判别设备及存储介质

    公开(公告)号:CN114400024B

    公开(公告)日:2024-09-03

    申请号:CN202210046402.X

    申请日:2022-01-14

    Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。

Patent Agency Ranking