语音识别方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN118173095A

    公开(公告)日:2024-06-11

    申请号:CN202410165122.X

    申请日:2024-02-05

    Abstract: 本申请提供了语音识别方法、装置、设备、存储介质及程序产品,具体实现方案为:获取待识别语音和伪语音,其中,所述待识别语音为多通道音频,所述伪语音是与所述多通道音频的音频序列长度相同的音频;对所述待识别语音的各个通道音频中的每一音频帧,以及所述伪语音的每一音频帧进行特征融合,得到各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列;分别对各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列进行解码,确定与所述待识别语音对应的识别文本。根据本申请的技术方案,能够有效提升语音识别的准确性。

    语音识别方法及相关装置
    13.
    发明公开

    公开(公告)号:CN117877511A

    公开(公告)日:2024-04-12

    申请号:CN202311727576.3

    申请日:2023-12-14

    Abstract: 本申请提出一种语音识别方法及相关装置,该方法包括:获取混合音频中的各个通道音频的音频特征;通过为各个通道音频的音频特征分别添加音频通道对应的辅助特征,生成各个通道音频的增强音频特征;所述辅助特征包括通道特征和/或说话人识别特征,所述通道特征表示音频通道的特征,所述说话人识别特征用于识别说话人对应的音频通道;对各个通道音频的增强音频特征进行融合,并基于融合特征识别所述混合音频中的语音内容以及语音内容的说话人对应的音频通道。上述方案能够准确识别混合音频中的语音内容,以及同时准确识别混合语音的语音内容的说话人。

    语音识别模型的训练方法、语音识别方法及相关设备

    公开(公告)号:CN117854486A

    公开(公告)日:2024-04-09

    申请号:CN202311728223.5

    申请日:2023-12-14

    Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法及相关设备。该方法包括:将第一语音样本数据和第二语音样本数据输入语音识别模型,语音识别模型至少包含网络结构相同的语音识别教师网络和语音识别学生网络,语音识别教师网络用于接收第一语音样本数据,语音识别学生网络用于接收第二语音样本数据;利用语音识别教师网络对第一语音样本数据进行处理,得到第一语音处理数据;以及,利用语音识别学生网络对第二语音样本数据进行处理,得到第二语音处理数据;基于第一语音处理数据和第二语音处理数据,调整语音识别模型的网络参数,得到训练后的语音识别模型。上述方案,能够提高训练后的语音识别模型进行语音识别的准确度。

    一种语音识别方法和相关装置
    15.
    发明公开

    公开(公告)号:CN117789708A

    公开(公告)日:2024-03-29

    申请号:CN202311662923.9

    申请日:2023-11-30

    Abstract: 本申请提供了一种语音识别、编码方法和相关装置,通过预训练的语音识别模型中的编码器对待识别语音特征向量进行编码,得到编码特征向量,通过语音识别模型中的解码器对编码特征向量进行解码,得到待识别语音特征向量对应的语音识别结果。由此可见,本申请会在对待识别语音特征向量进行编码的过程中对编码层中的多个注意力头的权重进行修正,以使得具有正向激励作用的注意力头的修正后权重大于具有负向激励作用的注意力头的修正后权重,由此可以削弱具有负向激励作用的注意力头在编码过程中的负向激励作用,因此基于各个注意力头的修正后权重进行编码,使得到的编码特征向量更准确,提高了语音识别的准确度。

    语音识别模型的训练方法、语音识别方法、装置和设备

    公开(公告)号:CN117711383A

    公开(公告)日:2024-03-15

    申请号:CN202311708327.X

    申请日:2023-12-12

    Abstract: 本发明提供一种语音识别模型的训练方法、语音识别方法、装置和设备,该语音识别模型的训练方法包括:获取语音信号和含噪语音信号,所述语音信号和所述含噪语音信号为对同一语音进行采集得到的;分别将所述语音信号和含噪语音信号输入至初始语音识别模型中,得到所述初始语音识别模型输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量;基于所述语音特征向量和所述含噪语音特征向量,调整所述初始语音识别模型的模型参数,得到所述语音识别模型。本发明实施例提供的语音识别模型的训练方法、语音识别方法、装置和设备能够提高噪声场景或者多说话人的场景中的语音识别效果。

    一种数据处理模型训练方法、数据处理方法及相关设备

    公开(公告)号:CN117172299A

    公开(公告)日:2023-12-05

    申请号:CN202311168536.X

    申请日:2023-09-11

    Abstract: 本发明提供了一种数据处理模型训练方法、数据处理方法及相关设备,方法包括:采用第一训练数据集中的训练数据训练初始的数据处理模型,得到第一数据处理模型,第一训练数据集包括通用领域的训练数据;对第一数据处理模型中的模块进行复制操作,得到复制模块,并将复制模块与原始模块并联,得到第二数据处理模型;采用第二训练数据集中的训练数据训练第二数据处理模型,第二训练数据集中至少包括特定领域的训练数据,训练第二数据处理模型时,只对复制模块的参数进行更新。经由本发明提供的数据处理模型训练方法可训练得到对通用领域的数据和特定领域的数据均具有较好处理效果的数据处理模型。

    一种信息处理方法和设备
    18.
    发明公开

    公开(公告)号:CN119107961A

    公开(公告)日:2024-12-10

    申请号:CN202411203986.2

    申请日:2024-08-29

    Abstract: 本发明实施例公开了一种信息处理方法和设备,信息处理方法应用于包含信息处理模型的信息处理设备;所述方法包括:接收用户的第一信息,第一信息包含第一音频,第一音频为待修复音频;所述信息处理模型根据所述第一信息得到第二信息,所述第二信息包含所述第一音频对应的第一语义特征,所述第一语义特征为所述第一音频中第一帧数的音频进行语义修复后的语义特征;所述信息处理模型根据所述用户的声纹特征和所述第二信息得到第二音频。能够实现实时的声音修复。

    语音特征提取方法及相关方法、装置、设备和存储介质

    公开(公告)号:CN118136045A

    公开(公告)日:2024-06-04

    申请号:CN202410096686.2

    申请日:2024-01-23

    Abstract: 本申请公开了一种语音特征提取方法及相关方法、装置、设备和存储介质,其中,语音特征提取方法包括:获取待处理语音;基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征;其中,特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度。上述方案,能够提升对多通道语音的语音特征提取精度。

    文本规整方法、装置、电子设备和存储介质

    公开(公告)号:CN117252152A

    公开(公告)日:2023-12-19

    申请号:CN202311436138.1

    申请日:2023-10-31

    Abstract: 本发明提供一种文本规整方法、装置、电子设备和存储介质,其中方法包括:获取待规整的原始文本;提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,所述文本表示、数字规整表示和标点预测表示在同一建模空间内;基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本。本发明提供的文本规整方法、装置、电子设备和存储介质,采用并行逻辑同时对原始文本分别进行数字规整和标点预测,由此避免了串行逻辑带来的错误累计,提升了文本规整的准确性。

Patent Agency Ranking