一种端到端语音合成方法和装置
    91.
    发明公开

    公开(公告)号:CN115985289A

    公开(公告)日:2023-04-18

    申请号:CN202211582420.6

    申请日:2022-12-09

    Abstract: 本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。

    一种在线端对端语音转写方法及系统

    公开(公告)号:CN111128191B

    公开(公告)日:2023-03-28

    申请号:CN201911415035.0

    申请日:2019-12-31

    Abstract: 本发明提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。

    一种基于自监督对比学习的半监督音频事件标注方法

    公开(公告)号:CN112820322B

    公开(公告)日:2022-12-23

    申请号:CN202110290710.2

    申请日:2021-03-18

    Abstract: 本发明提出一种基于自监督对比学习的半监督音频事件标注方法,包括:提取无标注数据的梅尔对数能量谱特征,并对其做归一化;对每个频谱特征做两次随机增强生成两个特征;搭建自监督网络的编码器和投影层;计算样本输出间的相似度,通过排序确定正负样本;通过加强正负样本的对比训练网络;提取标注数据的梅尔对数能量谱特征,并对其做归一化;在训练好的编码器上加入新的分类器联合再训练;输出音频事件标注结果。本发明通过利用自监督对比学习,利用数据自身特点实现对无标注数据的监督学习,获得有效音频表征,然后利用少量标注数据再训练后生成音频中出现的事件类别。

    一种基础心音识别方法及设备

    公开(公告)号:CN111938691B

    公开(公告)日:2022-03-18

    申请号:CN202010829479.5

    申请日:2020-08-18

    Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。

    一种多通道远场语音识别方法

    公开(公告)号:CN110867178B

    公开(公告)日:2022-01-21

    申请号:CN201810986855.4

    申请日:2018-08-28

    Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。

    一种多语言语音合成模型的训练方法及装置

    公开(公告)号:CN113707125A

    公开(公告)日:2021-11-26

    申请号:CN202111008489.3

    申请日:2021-08-30

    Abstract: 本说明书实施例提供一种多语言语音合成模型的训练方法及装置,方法包括:基于各样本语言的样本音频的梅尔谱特征标签、样本音素序列、说话人标识标签,分别训练风格编码器、文本编码器以及解码器,以获得可以将音频的音色(通过说话人标识表征)、风格以及文本内容解耦开的风格编码器、文本编码器以及解码器,进而利用样本音频的说话人标识标签及样本音素序列,以及已训练的风格编码器输出的该样本音频的风格向量作为标签,训练风格预测器,以得到多语言语音合成模型。

    一种基于空洞卷积神经网络的端到端语种识别分类方法

    公开(公告)号:CN113539238A

    公开(公告)日:2021-10-22

    申请号:CN202010247070.2

    申请日:2020-03-31

    Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。

Patent Agency Ranking