语音端点检测模型的训练方法、语音端点检测方法及装置

    公开(公告)号:CN117953871A

    公开(公告)日:2024-04-30

    申请号:CN202311020836.3

    申请日:2023-08-14

    发明人: 杨斌 陆全 蒋宁 刘敏

    IPC分类号: G10L15/05 G10L15/06 G10L25/24

    摘要: 本申请实施例提供了一种语音端点检测模型的训练方法、语音端点检测方法及装置,其中训练方法包括:将多个样本音频的第一音频特征输入教师模型中进行第一特征提取处理,得到样本音频的第一隐层特征;将第一音频特征输入学生模型中进行训练处理,得到训练后的学生模型、样本音频的第二隐层特征及第一语音端点检测结果;根据第一隐层特征、第二隐层特征和第一语音端点检测结果,确定目标损失;基于目标损失对训练后的学生模型进行训练,得到语音端点检测模型;其中,教师模型是基于无监督训练所得的预训练模型。通过本申请实施例,提升了语音端点检测模型的性能。

    语音活性检测方法、装置、电子设备及存储介质

    公开(公告)号:CN117497012A

    公开(公告)日:2024-02-02

    申请号:CN202310850396.8

    申请日:2023-07-11

    IPC分类号: G10L25/87 G10L25/03 G10L25/30

    摘要: 本申请公开了一种语音活性检测方法、装置、电子设备及存储介质。该方法包括:基于待检测语音信号包括的多个信号帧的第一子声学特征,确定待检测语音信号的第一声学特征;基于第一声学特征进行多次迭代操作,得到待检测语音信号的第二声学特征;其中,每次迭代操作包括:对第一目标声学特征进行卷积处理,并基于第一声学特征和卷积处理后的声学特征进行卷积调制,得到第二目标声学特征;对第二目标声学特征进行池化处理,得到第二声学特征;基于最后一次迭代操作得到的第二声学特征,确定多个信号帧中每个信号帧的语音活性检测结果。采用本申请实施例可提高语音活性检测的准确性。

    语音识别方法及其装置、电子设备、存储介质

    公开(公告)号:CN117496983A

    公开(公告)日:2024-02-02

    申请号:CN202310772696.9

    申请日:2023-06-27

    摘要: 本申请提供了一种语音识别方法及其装置、电子设备、存储介质,该方法包括:获取音频中至少一个语音角色和语音角色对应的语音时段,每个语音角色用于表示音频中一个说话者;识别音频中每个语音数据,并对语音数据进行时间定位获得目标语音时段;根据目标语音时段对每个语音角色对应的语音时段进行校正获得每个语音角色对应的校正语音时段;将校正语音时段对应的语音数据转换为文本数据得到每个语音角色的说话文本数据;根据每个语音角色的说话文本数据,识别每个语音角色的角色类型,角色类型表示说话者的身份。根据本申请的实施例能够准确识别出音频中不同语音角色的角色类型。

    语音合成模型的训练方法、语音合成方法及装置

    公开(公告)号:CN117496939A

    公开(公告)日:2024-02-02

    申请号:CN202310458770.X

    申请日:2023-04-25

    摘要: 本申请实施例公开了一种语音合成模型的训练方法、语音合成方法及装置。语音合成模型的训练方法包括:获取第一样本文本以及第一样本文本对应的样本音频数据;将第一样本文本和样本音频数据输入待训练的语音合成模型;待训练的语音合成模型包括预训练的语言处理模型和音频生成模块;通过预训练的语言处理模型,提取第一样本文本对应的文本特征信息;文本特征信息包括每个第一语言单位对应的语义特征信息以及各第一语言单位之间的语义关联特征信息;通过音频生成模块,根据文本特征信息确定第一样本文本对应的预测音频数据,并根据预测音频数据和样本音频数据对语音合成模型进行训练。本申请能够提升语音合成模型的模型性能。

    标注方法、语音合成方法、训练方法及装置

    公开(公告)号:CN115116427B

    公开(公告)日:2023-11-14

    申请号:CN202210709206.6

    申请日:2022-06-22

    IPC分类号: G10L13/02 G10L13/08 G10L13/10

    摘要: 本申请公开了一种标注方法、语音合成方法、训练方法及装置,属于自然语言处理技术领域。本申请提供的音频文本韵律的标注方法包括:获取目标音频以及与所述目标音频对应的目标文本;将所述目标音频输入至目标韵律模型进行音频转化处理,得到目标结果;其中,所述目标韵律模型为已训练好的韵律模型,所述目标结果包括韵律指示信息,所述韵律指示信息用于指示所述目标音频的韵律停顿特征;基于所述韵律指示信息,对所述目标文本进行韵律标注。

    关键词检测方法、装置、计算机设备及存储介质

    公开(公告)号:CN114817456B

    公开(公告)日:2023-09-05

    申请号:CN202210234073.1

    申请日:2022-03-10

    摘要: 本申请公开了一种关键词检测方法、装置、计算机设备及存储介质,该方法包括:获取待检测音频;提取待检测音频的第一音频特征,得到第一音频特征构成的第一特征序列;将预设关键词特征与第一特征序列拼接,得到第二特征序列,预设关键词特征为预设关键词对应的第二音频特征;将第二特征序列输入至预先训练的关键词检测模型中,得到待检测音频的关键词检测结果。如此,将第一特征序列的与预设关键词特征拼接,得到第二特征序列,提供了关键词检测依据,保证了关键词检测的准确性;并且,关键词检测模型基于筛选出的与预设关键词特征相关联的第一音频特征,检测所述待检测音频,得到所述关键词检测结果,也提高了关键词检测的效率。

    语音合成方法、声学模型的训练方法及装置

    公开(公告)号:CN114582317B

    公开(公告)日:2023-08-08

    申请号:CN202210319541.5

    申请日:2022-03-29

    摘要: 本申请公开了一种语音合成方法、声学模型的训练方法及装置。所述合成方法包括:基于待合成文本的音素序列,得到待合成文本的音素特征向量;将音素特征向量输入声学模型,得到待合成文本对应的合成语音;声学模型包括编码器和合成网络;编码器包括融合层和n级串联的子编码器,第一级子编码器用于对音素特征向量进行编码,得到对应的编码序列,除第一级子编码器之外的其余各级子编码器用于对音素特征向量和前面各级子编码得到的编码序列进行编码,得到对应的编码序列,融合层用于对音素特征向量和每级子编码器得到的编码序列进行融合处理,得到音素编码序列;合成网络用于根据目标可变声学特征和音素编码序列进行语音合成处理,得到合成语音。

    一种语音的转换方法、装置及设备

    公开(公告)号:CN114639371B

    公开(公告)日:2023-08-01

    申请号:CN202210257446.7

    申请日:2022-03-16

    IPC分类号: G10L13/02 G10L13/10

    摘要: 本说明书实施例公开了一种语音的转换方法、装置及设备,该方法包括:获取待处理的第一文本信息,对第一文本信息中包含的满足预设条件的词语进行词语转译,以将第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语,得到转译的第二文本信息,预设条件至少由词语对应的音素的发音基频和/或由预设词语确定,基于第二文本信息,确定将第二文本信息转换为语音数据的转换参数,该转换参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种,基于该转换参数将第二文本信息转换为语音数据。通过本说明书实施例,可以使得最终转换后的语音数据更易于用户听见和听清,以及对语音内容的理解。

    训练数据生成方法及装置
    9.
    发明公开

    公开(公告)号:CN116153314A

    公开(公告)日:2023-05-23

    申请号:CN202211536931.4

    申请日:2022-12-02

    摘要: 本公开提供了一种训练数据生成方法及装置,用于提升转译文本纠错模型的训练数据的准确性。该方法包括:根据转译文本数据集的标注结果,生成混淆字符集合;计算转译文本数据集中包含的每条转译文本的转译错误指标,根据每条转译文本的转译错误指标确定转译文本数据集的转译错误分布情况;获取标准文本数据集,根据混淆字符集合,对标准文本数据集中的每条标准文本执行混淆处理,得到混淆文本数据集,混淆文本数据集的转译错误分布情况与转译文本数据集的转译错误分布情况匹配;将混淆文本数据集作为用于训练转译文本纠错模型的训练数据;其中,标准文本数据集作为混淆文本数据集的标注结果。

    语音转化模型的训练方法和装置及语音生成方法和装置

    公开(公告)号:CN116129876A

    公开(公告)日:2023-05-16

    申请号:CN202210956115.2

    申请日:2022-08-10

    摘要: 本公开提供了一种语音转化模型的训练方法和装置及语音生成方法和装置。所述训练方法包括:获取第一训练数据,其中,第一训练数据包括语音数据、与所述语音数据对应的音素数据和与所述语音数据对应的标准梅尔谱图;将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入,其中,所述说话人嵌入用于表示说话人的音色;以及基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对初始语音转化模型进行训练,得到所述语音转化模型,所述语音转化模型用于将文本转化为语音的梅尔谱图。