样本音频数据的获取方法、语音识别方法及相关装置

    公开(公告)号:CN117894300A

    公开(公告)日:2024-04-16

    申请号:CN202311870857.4

    申请日:2023-12-29

    Abstract: 本申请公开了一种样本音频数据的获取方法、语音识别方法及相关装置。该方法包括:获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。上述方案,能够提高获取对目标语言识别模型训练的样本音频数据的效率。

    语音唤醒方法、装置、设备及可读存储介质

    公开(公告)号:CN117789695A

    公开(公告)日:2024-03-29

    申请号:CN202311805097.9

    申请日:2023-12-25

    Abstract: 本申请公开了一种语音唤醒方法、装置、设备及可读存储介质,在获取待识别的语音信号之后,先获取预设唤醒词的语种信息,预设唤醒词的语种信息用于指示预设唤醒词中包含的唤醒词片段,以及每个唤醒词片段对应的语种;然后对语音信号按语种进行切分,得到语种片段集合,语种片段集合中包括至少一个语种片段;最后语种片段集合与预设唤醒词的语种信息的一致性,确定语音信号的唤醒结果为第一唤醒结果还是第二唤醒结果,第一唤醒结果用于指示唤醒成功,第二唤醒结果用于指示唤醒失败。该方案能够实现多个语种的唤醒词的语音唤醒以及由多个语种拼接得到的唤醒词的语音唤醒。

    时序采样方法及装置、语音识别方法及装置

    公开(公告)号:CN116072105A

    公开(公告)日:2023-05-05

    申请号:CN202211584850.1

    申请日:2022-12-09

    Abstract: 本申请提供了一种时序采样方法及装置、语音识别方法及装置,涉及人工智能技术领域。该时序采样方法包括:获取目标语音数据;基于目标语音数据,利用采样模型,确定目标语音数据的时序采样结果,其中,采样模型包括l层下采样网络和l层上采样网络,每层下采样网络包括并联的skip模块和下采样模块,每层上采样网络包括并联的skip模块和上采样模块,采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块,为目标语音数据匹配采样模型中的最优采样路径,l为大于1的正整数。通过本申请中的时序采样方法,能够提升对语音数据的声学特征的学习能力、以及建模粒度的适配度。

    特征提取模型的训练方法和数据处理方法及装置

    公开(公告)号:CN115861670A

    公开(公告)日:2023-03-28

    申请号:CN202211415707.X

    申请日:2022-11-11

    Abstract: 本发明提供一种特征提取模型的训练方法和数据处理方法及装置,其中训练方法包括:获取至少一个模态的样本数据;执行样本数据所属的模态所对应的有监督任务,获取有监督任务执行过程中生成的样本数据的数据特征;对样本数据的数据特征进行聚类,基于聚类结果确定样本数据所属模态下的基准数据特征,并基于基准数据特征与样本数据的数据特征之间的相似度,确定与样本数据相匹配的基准数据特征;基于至少一个模态的样本数据,以及与样本数据相匹配的基准数据特征,训练特征提取模型。本发明提供的方法和装置,能够强化特征提取模型训练时指导标签的区分性和表征能力,从而达到加快特征提取模型收敛速度,提升特征提取模型表达能力的效果。

Patent Agency Ranking