语音特征提取方法及相关方法、装置、设备和存储介质

    公开(公告)号:CN118136045A

    公开(公告)日:2024-06-04

    申请号:CN202410096686.2

    申请日:2024-01-23

    摘要: 本申请公开了一种语音特征提取方法及相关方法、装置、设备和存储介质,其中,语音特征提取方法包括:获取待处理语音;基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征;其中,特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度。上述方案,能够提升对多通道语音的语音特征提取精度。

    文本规整方法、装置、电子设备和存储介质

    公开(公告)号:CN117252152A

    公开(公告)日:2023-12-19

    申请号:CN202311436138.1

    申请日:2023-10-31

    摘要: 本发明提供一种文本规整方法、装置、电子设备和存储介质,其中方法包括:获取待规整的原始文本;提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,所述文本表示、数字规整表示和标点预测表示在同一建模空间内;基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本。本发明提供的文本规整方法、装置、电子设备和存储介质,采用并行逻辑同时对原始文本分别进行数字规整和标点预测,由此避免了串行逻辑带来的错误累计,提升了文本规整的准确性。

    语音识别方法和电子设备、存储装置

    公开(公告)号:CN112489651B

    公开(公告)日:2023-02-17

    申请号:CN202011378944.4

    申请日:2020-11-30

    IPC分类号: G10L15/22 G10L15/06 G10L15/26

    摘要: 本申请公开了一种语音识别方法和电子设备、存储装置,其中,语音识别方法包括:获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表;对原始音频进行初始识别,得到初始识别文本;从第一参考列表中,筛选与初始识别文本满足第一预设条件的参考词语,得到第二参考列表;利用第二参考列表,对原始音频进行最终识别,得到最终识别文本。上述方案,能够提高语音识别准确性。

    语音识别方法、相关设备及可读存储介质

    公开(公告)号:CN114155836A

    公开(公告)日:2022-03-08

    申请号:CN202111479624.2

    申请日:2021-12-06

    IPC分类号: G10L15/02 G10L15/26 G10L19/00

    摘要: 本申请公开了一种语音识别方法、相关设备及可读存储介质。该方案中,通过预先构建一个解码网络,该解码网络包括主解码网络以及插入在该主解码网络中的热词解码网络,在获取待识别的语音信号之后,利用该解码网络对该语音信号进行解码,并在解码过程中,利用该热词解码网络对该语音信号进行热词激励,得到对应的语音识别文本。基于该方案,只需对语音信号进行一次解码处理,即可实现对热词的激励,因此,该方案能够提升热词的识别效率。

    音频识别方法、系统和相关装置
    7.
    发明公开

    公开(公告)号:CN118553249A

    公开(公告)日:2024-08-27

    申请号:CN202411022971.6

    申请日:2024-07-29

    IPC分类号: G10L15/26 G10L15/06 G10L15/08

    摘要: 本申请公开了一种音频识别方法、系统和相关装置,该方法包括:获取待识别音频;将所述待识别音频输入至目标识别模型,得到与所述待识别音频匹配的目标识别文本;其中,所述目标识别模型基于训练后的初始识别模型得到,所述初始识别模型包括参数共享的音频解析网络和文本解析网络,所述音频解析网络利用多个训练音频进行训练,所述文本解析网络利用多个训练文本进行训练,所述训练音频匹配有文本标签,所述训练文本匹配有类别标签。通过上述方式,本申请能够提高音频识别的准确性。

    语音增广方法及相关方法、装置、设备和存储介质

    公开(公告)号:CN118136034A

    公开(公告)日:2024-06-04

    申请号:CN202410090166.0

    申请日:2024-01-22

    摘要: 本申请公开了一种语音增广方法及相关方法、装置、设备和存储介质,其中,语音增广方法包括:获取目标语音;其中,目标语音包含多个语音通道;基于目标语音执行增广处理,得到与目标语音表达相同含义的增广语音;其中,增广处理包括以下至少一项操作:对至少一个语音通道的语谱图执行至少一种谱增广,对至少一个语音通道中语音帧的目标数据以帧为单位进行增广,对至少一个语音通道中语音帧的目标数据以通道为单位进行增广,且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者。上述方案,能够在实现多通道语音增广的前提下,尽可能地提升多通道语音增广的多样性。

    语音识别模型的训练方法、语音识别方法和相关装置

    公开(公告)号:CN117711384A

    公开(公告)日:2024-03-15

    申请号:CN202311728209.5

    申请日:2023-12-14

    摘要: 本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置,该方法包括:获取若干样本音频段;利用语音识别模型分别对各样本音频段进行特征提取,得到各样本音频段的音频特征和至少一个场景特征,场景特征用于表征样本音频段的说话人、采集通道和所属音频源中的至少一者的信息;利用语音识别模型至少基于各样本音频段的音频特征,得到各样本音频段的样本识别文本;基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度,调整语音识别模型。通过上述方式,本申请能够提高语音识别的准确性。

    语音转换方法及相关方法、设备和存储介质

    公开(公告)号:CN117423334A

    公开(公告)日:2024-01-19

    申请号:CN202311198417.9

    申请日:2023-09-15

    摘要: 本申请公开了一种语音转换方法及相关方法、设备和存储介质,其中,语音转换方法包括:提取源语音的第一语义特征;响应于表征源语音中源字词转换为目标字词的转换指令,基于第一语义特征,预测得到源语音中源字词替换为目标字词之后的第二语义特征;基于第一语义特征和第二语义特征,重建得到至少一个生成语音;其中,不同生成语音的发音变动程度不同,且发音变动程度表征在发音维度由源字词变为目标字词的程度。上述方案,能够自动获取源语音的相似语音。