一种语音识别方法及相关装置
    1.
    发明公开

    公开(公告)号:CN119400181A

    公开(公告)日:2025-02-07

    申请号:CN202411635769.0

    申请日:2024-11-15

    Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音识别技术领域,语音识别方法包括:获取目标语音数据;通过对目标语音数据进行初步语音识别,获取目标语音数据的字级别声学信息以及候选语音识别结果;将目标语音数据的字级别声学信息投射到大语言模型的表征空间中,得到目标语音数据的目标声学特征;利用大语言模型,辅以目标语音数据的候选语音识别结果,将目标语音数据的目标声学特征处理成文字序列,得到目标语音数据的语音识别结果。本申请公开的语音识别方法具有较好的识别效果。

    音频识别方法、系统和相关装置

    公开(公告)号:CN118553249B

    公开(公告)日:2024-12-13

    申请号:CN202411022971.6

    申请日:2024-07-29

    Abstract: 本申请公开了一种音频识别方法、系统和相关装置,该方法包括:获取待识别音频;将所述待识别音频输入至目标识别模型,得到与所述待识别音频匹配的目标识别文本;其中,所述目标识别模型基于训练后的初始识别模型得到,所述初始识别模型包括参数共享的音频解析网络和文本解析网络,所述音频解析网络利用多个训练音频进行训练,所述文本解析网络利用多个训练文本进行训练,所述训练音频匹配有文本标签,所述训练文本匹配有类别标签。通过上述方式,本申请能够提高音频识别的准确性。

    音频识别方法、系统和相关装置

    公开(公告)号:CN118553249A

    公开(公告)日:2024-08-27

    申请号:CN202411022971.6

    申请日:2024-07-29

    Abstract: 本申请公开了一种音频识别方法、系统和相关装置,该方法包括:获取待识别音频;将所述待识别音频输入至目标识别模型,得到与所述待识别音频匹配的目标识别文本;其中,所述目标识别模型基于训练后的初始识别模型得到,所述初始识别模型包括参数共享的音频解析网络和文本解析网络,所述音频解析网络利用多个训练音频进行训练,所述文本解析网络利用多个训练文本进行训练,所述训练音频匹配有文本标签,所述训练文本匹配有类别标签。通过上述方式,本申请能够提高音频识别的准确性。

    语音增广方法及相关方法、装置、设备和存储介质

    公开(公告)号:CN118136034A

    公开(公告)日:2024-06-04

    申请号:CN202410090166.0

    申请日:2024-01-22

    Abstract: 本申请公开了一种语音增广方法及相关方法、装置、设备和存储介质,其中,语音增广方法包括:获取目标语音;其中,目标语音包含多个语音通道;基于目标语音执行增广处理,得到与目标语音表达相同含义的增广语音;其中,增广处理包括以下至少一项操作:对至少一个语音通道的语谱图执行至少一种谱增广,对至少一个语音通道中语音帧的目标数据以帧为单位进行增广,对至少一个语音通道中语音帧的目标数据以通道为单位进行增广,且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者。上述方案,能够在实现多通道语音增广的前提下,尽可能地提升多通道语音增广的多样性。

    语音识别模型的训练方法、语音识别方法和相关装置

    公开(公告)号:CN117711384A

    公开(公告)日:2024-03-15

    申请号:CN202311728209.5

    申请日:2023-12-14

    Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置,该方法包括:获取若干样本音频段;利用语音识别模型分别对各样本音频段进行特征提取,得到各样本音频段的音频特征和至少一个场景特征,场景特征用于表征样本音频段的说话人、采集通道和所属音频源中的至少一者的信息;利用语音识别模型至少基于各样本音频段的音频特征,得到各样本音频段的样本识别文本;基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度,调整语音识别模型。通过上述方式,本申请能够提高语音识别的准确性。

    语音转换方法及相关方法、设备和存储介质

    公开(公告)号:CN117423334A

    公开(公告)日:2024-01-19

    申请号:CN202311198417.9

    申请日:2023-09-15

    Abstract: 本申请公开了一种语音转换方法及相关方法、设备和存储介质,其中,语音转换方法包括:提取源语音的第一语义特征;响应于表征源语音中源字词转换为目标字词的转换指令,基于第一语义特征,预测得到源语音中源字词替换为目标字词之后的第二语义特征;基于第一语义特征和第二语义特征,重建得到至少一个生成语音;其中,不同生成语音的发音变动程度不同,且发音变动程度表征在发音维度由源字词变为目标字词的程度。上述方案,能够自动获取源语音的相似语音。

    语音识别方法和电子设备、存储装置

    公开(公告)号:CN112489651A

    公开(公告)日:2021-03-12

    申请号:CN202011378944.4

    申请日:2020-11-30

    Abstract: 本申请公开了一种语音识别方法和电子设备、存储装置,其中,语音识别方法包括:获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表;对原始音频进行初始识别,得到初始识别文本;从第一参考列表中,筛选与初始识别文本满足第一预设条件的参考词语,得到第二参考列表;利用第二参考列表,对原始音频进行最终识别,得到最终识别文本。上述方案,能够提高语音识别准确性。

    特定说话人语音识别方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN118298830A

    公开(公告)日:2024-07-05

    申请号:CN202410520839.1

    申请日:2024-04-28

    Abstract: 本申请公开了一种特定说话人语音识别方法、装置、相关设备及计算机程序产品,采用解耦每个说话人的方式,给语音识别模型一个目标说话人的提示语音及待分离的混合语音,让模型一次只输出混合语音中该目标说话人的说话内容对应的识别文本,模型每次输出仅包含一个目标说话人的说话内容识别文本,可以保证说话人与说话内容识别文本间的对应匹配,且避免传统方案由于分隔符位置预测错误所导致的多个说话人的说话内容预测错误的情况。本申请方案中模型能够以目标说话人的提示语音作为参考,更加准确的从混合语音中分离出目标说话人的说话内容识别文本,提升了目标说话人语音识别结果的准确度。

Patent Agency Ranking