低资源语音识别模型训练方法、相关设备及可读存储介质

    公开(公告)号:CN116153297A

    公开(公告)日:2023-05-23

    申请号:CN202211410906.1

    申请日:2022-11-11

    Abstract: 本申请公开了一种低资源语音识别模型训练方法、相关设备及可读存储介质。先从无监督低资源语音数据中筛选出标注价值高的目标无监督低资源语音数据;然后,对目标无监督低资源语音数据进行标注,得到有监督低资源语音数据;最后,利用无监督低资源语音数据以及有监督低资源语音数据,对基础预训练模型进行训练得到低资源语音识别模型。本方案中,先从无监督低资源语音数据中筛选出标注价值高的数据再进行标注得到有监督低资源语音数据,使得得到的有监督低资源语音数据的质量较高,而且,无监督低资源语音数据在训练过程中也得到了更为充分的利用,因此,训练得到的低资源语音识别模型在实际应用场景中的性能会有所提升。

    语音识别方法、装置、电子设备和存储介质

    公开(公告)号:CN114708852B

    公开(公告)日:2025-05-13

    申请号:CN202210255584.1

    申请日:2022-03-15

    Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,所述方法包括:将待识别语音的语音特征输入至语音识别模型,得到语音识别模型输出的识别文本;语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;第一识别文本是学生模型基于领域样本语音的语音特征确定的,第二识别文本是教师模型基于领域样本语音的语音特征确定的,教师模型基于通用样本语音及其标签识别文本训练得到。本发明提供的语音识别方法、装置、电子设备和存储介质,在特定领域场景下能够准确进行语音识别。

    语音识别模型的训练方法和语音识别方法

    公开(公告)号:CN119107940A

    公开(公告)日:2024-12-10

    申请号:CN202411344046.5

    申请日:2024-09-25

    Abstract: 本发明提供一种语音识别模型的训练方法和语音识别方法,其中训练方法包括:基于语音编码网络,提取标签样本语音的语音特征,并基于解码网络解码语音特征,得到标签样本语音的对齐信息;基于文本编码网络,提取标签样本语音的标签文本的文本特征,并基于对齐信息对文本特征进行特征对齐,得到对齐文本特征,语音编码网络和文本编码网络共享部分的编码模块;基于语音特征和对齐文本特征,对语音编码网络、文本编码网络和解码网络进行参数迭代;基于参数迭代完成的语音编码网络和解码网络,构建语音识别模型。本发明提供的方法,通过多模态的训练数据的应用、以及语音编码网络和文本编码网络共享的编码模块,能够有效提升语音识别模型的泛化能力。

    一种语种识别方法、装置、设备、介质及产品

    公开(公告)号:CN118748006A

    公开(公告)日:2024-10-08

    申请号:CN202410656002.X

    申请日:2024-05-24

    Abstract: 本申请提供一种语种识别方法、装置、设备、介质及产品,该方法包括:对待识别的语音数据进行语种识别,得到语音数据对应的初始语种识别结果,初始语种识别结果包括语音数据的各个语音帧各自对应的帧级别语种识别结果;基于初始语种识别结果,确定语音数据对应的中间语种识别结果,中间语种识别结果包括语音数据中的各个语种片段;基于中间语种识别结果中的各个语种片段各自对应的帧级别语种识别结果,对各个语种片段进行合并,得到语音数据对应的语种识别结果。本申请可以提高对混合语种数据的语种识别的准确度。

    多系统融合的语音识别方法、装置、设备及可读存储介质

    公开(公告)号:CN116168706A

    公开(公告)日:2023-05-26

    申请号:CN202310197341.1

    申请日:2023-02-28

    Abstract: 本申请公开了一种多系统融合的语音识别方法、装置、设备及可读存储介质。本方案中,首先获取目标语音在多个语音识别系统上分别对应的候选集,然后,对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;最后基于多个候选集的融合结果与多个候选集,确定目标语音的识别结果。在本方案中,每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的,对齐准确性更高,对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,也更有利于得到更准确的融合结果,从而能够得到准确度更高的语音识别结果。

    模型训练方法、模仿音检测方法、装置、设备及存储介质

    公开(公告)号:CN111785303A

    公开(公告)日:2020-10-16

    申请号:CN202010624032.4

    申请日:2020-06-30

    Inventor: 蒋俊 方磊 宣璇

    Abstract: 本申请实施例公开了一种模型训练方法、模仿音检测方法、装置、设备及存储介质,通过模仿音检测模型对样本语音进行特征提取,得到样本语音的初始特征序列;对初始特征序列中的部分初始特征进行修改;利用修改后的初始特征序列,确定样本语音的模仿音检测结果;以样本语音的模仿音检测结果趋近于样本语音的标签为目标,对模仿音检测模型的参数进行更新。本申请公开的方案,在模型训练过程中对初始特征序列进行修改,相当于对样本语音增加了噪声或样本语音丢失了一部分有用信息,保证模型的准确性和鲁棒性。

    自动声纹建模入库方法、装置以及设备

    公开(公告)号:CN111414511A

    公开(公告)日:2020-07-14

    申请号:CN202010219084.3

    申请日:2020-03-25

    Abstract: 本发明公开了一种自动声纹建模入库方法、装置以及设备。本发明的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

    有效语音识别方法及装置
    18.
    发明公开

    公开(公告)号:CN119763618A

    公开(公告)日:2025-04-04

    申请号:CN202510008493.1

    申请日:2025-01-03

    Abstract: 本发明提供一种有效语音识别方法及装置,所述方法包括:基于有效语音识别模型,提取待识别音频数据的音频特征,并应用待识别音频数据的音频特征,从待识别音频数据中确定有效语音数据;有效语音识别模型以最小化有效预测语音与有效语音标签之间的差异,最小化样本音频数据的音频特征与加噪后样本音频数据的音频特征之间的距离,以及最大化样本音频数据的音频特征与纯噪声数据的音频特征之间的距离为训练目标,有效预测语音是有效语音识别模型对样本音频数据进行有效语音识别得到的。本发明在面对语音信噪比较小,背景噪声较大的场景下,能够准确对待识别音频数据进行有效语音识别,提高有效语音识别精度。

    音频信号选取方法、装置、相关设备及信号接收系统

    公开(公告)号:CN116682461A

    公开(公告)日:2023-09-01

    申请号:CN202310822386.3

    申请日:2023-07-05

    Abstract: 本申请公开了一种音频信号选取方法、装置、相关设备及信号接收系统,本申请获取各个候选音频信号并提取每一候选音频信号的声学特征,该声学特征为,能够以其为依据解码得到目标音频信号的声学特征,其中,目标音频信号趋近于或等同于候选音频信号。鉴于声学特征的上述特性可知,声学特征包含了候选音频信号的各个维度的本征信息,如此才能够基于各维度丰富的本征信息解码还原出原始的候选音频信号。显然,声学特征所包含的各维度的本征信息必然包含了影响音频信号质量的各维度的影响因素,在此基础上,可以基于该声学特征准确的评估候选音频信号的质量,并参考各候选音频信号的质量,选取满足设定质量条件的候选音频信号,作为最终选取结果。

    声纹提取方法、声纹识别方法及相关装置、设备和介质

    公开(公告)号:CN115223571A

    公开(公告)日:2022-10-21

    申请号:CN202210683340.3

    申请日:2022-06-15

    Abstract: 本申请公开了一种声纹提取方法、声纹识别方法及相关装置、设备和介质,其中,声纹提取方法包括:获取由目标对象的各目标语音提取到的初始声纹特征,分别与参考声纹特征之间的差值声纹特征;从若干高斯混合模型中,确定与差值声纹特征匹配的高斯混合模型,作为差值声纹特征对应的目标混合模型;基于差值声纹特征和差值声纹特征对应的目标混合模型,分析得到信道特征,并从差值声纹特征对应的初始声纹特征中剥离信道特征,得到差值声纹特征对应的优化声纹特征;基于各差值声纹特征分别对应的优化声纹特征进行特征融合,得到目标对象的最终声纹特征。上述方案,能够尽可能地削弱声纹特征中的信道噪声,以提升声纹识别的准确性。

Patent Agency Ranking