一种端到端双语混合语音识别训练方法及系统

    公开(公告)号:CN118098220A

    公开(公告)日:2024-05-28

    申请号:CN202410320570.2

    申请日:2024-03-20

    Abstract: 本发明提供了一种端到端双语混合语音识别训练方法及系统,所述训练方法包括:使用未经训练的神经网络模型,利用多语言语音数据经过自监督训练,得到第一预训练模型;使用第一预训练模型,利用多语言语音有标注数据经过有监督训练,得到第二预训练模型;使用第二预训练模型,利用多语言语音无标注数据经过半监督训练,得到第三预训练模型;基于第三预训练模型,利用双语语音数据经过有监督训练,得到最终端到端双语混合语音识别系统。本发明的优势在于:本发明的训练方法在双语混合识别场景下,有很大的性能提升;由于该方法使用丰富的多语言语音数据进行预训练,同时采用创新的训练组合方式,该方法在双语混合语音识别场景下,识别准确率更高。

    一种多语言语音合成模型的训练方法及装置

    公开(公告)号:CN113707125B

    公开(公告)日:2024-02-27

    申请号:CN202111008489.3

    申请日:2021-08-30

    Abstract: 本说明书实施例提供一种多语言语音合成模型的训练方法及装置,方法包括:基于各样本语言的样本音频的梅尔谱特征标签、样本音素序列、说话人标识标签,分别训练风格编码器、文本编码器以及解码器,以获得可以将音频的音色(通过说话人标识表征)、风格以及文本内容解耦开的风格编码器、文本编码器以及解码器,进而利用样本音频的说话人标识标签及样本音素序列,以及已训练的风格编码器输出的该样本音频的风格向量作为标签,训练风格预测器,以得到多语言语音合成模型。

    一种基于深度学习的哭声检测方法及系统

    公开(公告)号:CN117577133A

    公开(公告)日:2024-02-20

    申请号:CN202311485914.7

    申请日:2023-11-09

    Abstract: 本发明涉及声音事件检测与深度学习领域,特别涉及一种基于深度学习的哭声检测方法及系统。本发明方法包括以下步骤:首先,提取待检测语音信号的MFCC频谱,并输入预先建立并训练好的哭声检测模型中,输出每一帧语音信号为哭声和非哭声的概率。然后,对输出概率进行处理,得到每一帧语音信号为哭声和非哭声的概率。接下来,通过概率阈值对哭声概率进行二值化,得到连续的哭声片段。最后,将超过阈值时长的片段输出为哭声片段。所述哭声检测模型采用了一种引入帧级注意力机制模块的CRNN结构,并采用弱监督训练方法进行训练。通过本发明,实现了一种基于深度学习的哭声检测方法及相应的系统,为婴儿护理领域的技术发展提供了一种创新解决方案。

    基于谐波冲激增强频谱特征的鼾声分类方法及系统

    公开(公告)号:CN117219128A

    公开(公告)日:2023-12-12

    申请号:CN202311244489.2

    申请日:2023-09-26

    Abstract: 本发明涉及音频信号处理与技术领域,具体涉及一种基于谐波冲激增强频谱特征的鼾声分类方法及系统。本发明方法包括:提取鼾声信号的梅尔频谱;将梅尔频谱分解为谐波频谱和冲激频谱;计算谐波频谱的频率权重和冲激频谱的时间权重,并分别进行加权得到谐波增强频谱和冲激增强频谱;将谐波增强频谱和冲激增强频谱以一定比例线性组合,得到谐波冲激增强频谱;将谐波冲激增强频谱特征输入训练好的卷积神经网络,得到鼾声分类结果。本发明采用谐波冲激分析和时频点自适应增强的方式,对OSA和良性鼾声频谱中的谐波和冲激结构进行增强,引导网络关注更加具有差异性和医学解释性的谐波和冲激部分,提升OSA和良性鼾声的分类准确率。

    一种双级过滤语音内容筛选系统及方法

    公开(公告)号:CN117095681A

    公开(公告)日:2023-11-21

    申请号:CN202311101230.2

    申请日:2023-08-30

    Abstract: 本发明提供了一种双级过滤语音内容筛选系统及方法,所述系统包括:第一级快速粗筛模块和第二级细致过滤定位模块;其中,所述第一级快速粗筛模块,用于快速分析和识别语音,根据预设的关键词进行初步筛选,标记并输出可能感兴趣的候选语音片段及对应文本列表;所述第二级细致过滤定位模块,用于以所述可能感兴趣的候选语音片段及对应文本列表为输入,通过语言内容理解分析,确定感兴趣目标的位置。本发明的优势在于:本申请引入亿级参数的深度学习模型,提供一种高效、精准的语音内容筛选系统,快速识别和过滤大量语音数据,并定位目标和感兴趣的部分,利用丰富语料资源训练模型,以提高系统的处理能力和准确性。

    一种基于自注意力的汉语韵律层级预测方法及系统

    公开(公告)号:CN111354333B

    公开(公告)日:2023-11-10

    申请号:CN201811571546.7

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于自注意力的汉语韵律层级预测方法,所述方法包括:对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。本发明的方法利用韵律层级预测模型进行汉语韵律层级预测,在保证预测性能的同时以字粒度的特征作为输入,避免了对于分词系统的依赖及其可能造成的负面影响,该模型利用自注意力机制,直接对文本中任意两个字间的关系建模,可实现并行化计算;并利用额外数据进行预训练提高模型性能,实现对待处理文本各韵律层级同时准确的预测,避免了错误的传递。

    一种鲁棒的伪造语音算法的溯源方法及装置

    公开(公告)号:CN116959425A

    公开(公告)日:2023-10-27

    申请号:CN202310746199.1

    申请日:2023-06-21

    Abstract: 本发明提供一种鲁棒的伪造语音算法的溯源方法及装置。该方法包括:利用训练数据集训练针对伪造语音算法的分类器;利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征;利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;分别计算所述目标隐层特征与若干隐层特征的距离,并确定其中的最短距离;当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。如此,可以使用声码器生成伪造算法识别的训练集。引入最邻近节点算法,通过最邻近距离的分布区分训练集中不存在的分布外数据。

    一种合成语音检测方法、装置、电子设备以及存储介质

    公开(公告)号:CN116758943A

    公开(公告)日:2023-09-15

    申请号:CN202310820588.4

    申请日:2023-07-05

    Abstract: 本发明实施例公开一种合成语音检测方法、装置、电子设备及存储介质,涉及语音识别技术领域,能够提高检测合成语音的准确率。所述方法包括:获取第一集合中的第一语音信号;第一语音信号包括真实语音信号以及合成语音信号;基于第一语音信号以及预设分类模型,生成第一交叉熵损失函数;生成分类模型的当前模型参数下的近似第一集合外的数据的后验分布特征,基于后验分布特征,生成第二交叉熵损失函数;基于第一交叉熵损失函数以及第二交叉熵损失函数,生成总损失函数;利用总损失函数进行梯度回传,对分类模型进行参数更新,以获得更新后的分类模型;将待检测语音信号的声学特征输入所述更新后的分类模型,以获得待检测语音信号的检测结果。

    一种多通道语音增强方法及装置

    公开(公告)号:CN113030862B

    公开(公告)日:2023-06-02

    申请号:CN202110268660.8

    申请日:2021-03-12

    Abstract: 本申请提供了一种多通道语音增强方法及装置。该方法包括:对多通道语音频域信号做去混响处理;然后根据多通道语音频域信号中声源的方位信息构建复角中心高斯混合概率模型,并通过复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;进行通过获得的时频掩蔽矩阵获得最小方差无失真滤波器并对多通道语音频域信号进行滤波,以及通过目标语音时频掩蔽矩阵对信号进行后滤波,获得最终的目标语音。该方法通过方位信息构建复角中心高斯混合概率模型,解决了模型无序输出时频掩蔽导致目标语音和噪声发生置换的问题,此外,去混响处理以及利用目标语音时频掩蔽进行后滤波处理,提升了目标语音的可懂度。

Patent Agency Ranking