音频识别方法和音频识别模型的训练方法

    公开(公告)号:CN116229949A

    公开(公告)日:2023-06-06

    申请号:CN202211718321.6

    申请日:2022-12-29

    Abstract: 本申请提供一种音频识别方法和音频识别模型的训练方法,所述音频识别方法,包括:获取待识别的音频数据;利用预先训练的音频识别模型,对所述待识别的音频数据进行音频识别处理,得到与所述音频数据对应的文本数据;其中,所述音频识别模型基于对第一音频识别模型中与音频识别任务相关的模型参数进行掩码梯度更新获得;所述第一音频识别模型通过利用包含文本伪标签的第一音频数据和包含文本标签的第二音频数据,对初始音频识别模型进行音频识别训练获得,所述文本伪标签由所述初始音频识别模型对所述第一音频数据进行音频识别而确定。

    语音识别模型的训练、语音识别方法、装置、设备及介质

    公开(公告)号:CN116168688A

    公开(公告)日:2023-05-26

    申请号:CN202211635640.0

    申请日:2022-12-19

    Abstract: 本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质,其中方法包括:确定非流式识别分支和流式识别分支;获取所述非流式识别分支进行语音识别时提取的样本语音中各帧的第一语音特征,以及所述流式识别分支进行语音识别时提取的所述样本语音中各帧的第二语音特征;对所述各帧的第一语音特征进行聚类,得到多个第一特征簇;将所述各帧的第二语音特征划分至所述多个第一特征簇,并基于所述第二语音特征所属的第一特征簇,确定特征提取损失;基于所述特征提取损失,对所述流式识别分支进行参数迭代,得到所述语音识别模型。本发明提供的方法、装置、电子设备及存储介质,进一步提高流式识别分支的语音识别结果的可靠性和准确性。

    一种语音唤醒方法、装置、电子设备及存储介质

    公开(公告)号:CN115881110A

    公开(公告)日:2023-03-31

    申请号:CN202211304682.6

    申请日:2022-10-24

    Abstract: 本申请公开了一种语音唤醒方法、装置、电子设备及存储介质,语音唤醒方法包括:获取第一语音数据;对所述第一语音数据进行语音识别,得到所述第一语音数据所表示的第一唤醒词;按照所述第一唤醒词进行第一唤醒操作;以及在所述第一唤醒操作后的预设时间内对所述第一唤醒词进行预设惩罚操作,所述预设惩罚操作用于降低将所述预设时间内获取的第二语音数据识别为所述第一唤醒词的概率。上述方案,能够有效降低多唤醒词之间的串扰。

    语音识别方法、装置、人机交互设备和存储介质

    公开(公告)号:CN115762497A

    公开(公告)日:2023-03-07

    申请号:CN202211394389.3

    申请日:2022-11-08

    Abstract: 本发明提供一种语音识别方法、装置、人机交互设备和存储介质,其中方法包括:确定待识别语音所处环境的环境视频;基于所述环境视频的视频描述文本,对所述视频描述文本进行实体抽取,并基于实体抽取结果更新关键词库,和/或,对所述视频描述文本进行实体关系抽取,并基于实体关系抽取结果更新知识图谱;基于更新后的关键词库和/或更新后的知识图谱,对所述待识别语音进行语音识别。本发明提供的语音识别方法、装置、人机交互设备和存储介质,可以形成针对用户的个性化知识,能够拓展符合用户习惯或者匹配当前环境信息的文本语料,从而提高语音识别的准确性,提升语音命令交互成功率,改善用户体验。

    语音标注质量评价方法、装置、设备及存储介质

    公开(公告)号:CN112700763A

    公开(公告)日:2021-04-23

    申请号:CN202011570121.1

    申请日:2020-12-26

    Abstract: 本申请提出一种语音标注质量评价方法、装置、设备及存储介质,该方法包括:获取与目标语音对应的待标注的语音识别结果,所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到,其中,替换后的文本片段是相对于所述目标语音的错误文本片段;获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果,所述文本标注处理为标注识别错误的文本的处理;根据所述待标注的语音识别结果以及所述标注结果,确定所述标注对象对所述目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价,实现了对标注对象的语音标注工作的监督,利于提升标注对象语音标注质量。

    一种语音意图识别方法及相关装置

    公开(公告)号:CN120015036A

    公开(公告)日:2025-05-16

    申请号:CN202510312047.X

    申请日:2025-03-17

    Abstract: 本申请公开了一种语音意图识别方法及相关装置,涉及语音处理技术领域,本方案中,利用多通道语音识别模型可以提升多通道语音信号的识别效果。另外,一方面基于预设高频交互文本库对各个通道的语音识别文本进行意图识别能保证高频意图被快速识别出来,另一方面基于训练后的意图识别模型对各个通道的语音识别文本进行意图识别又能保证非高频意图的识别效率和准确率。因此,本方案能够准确地、快速地实现对多通道语音信号的意图识别。

    情感识别方法、装置、电子设备和计算机程序产品

    公开(公告)号:CN119851698A

    公开(公告)日:2025-04-18

    申请号:CN202411990365.3

    申请日:2024-12-31

    Abstract: 本申请提出一种情感识别方法、装置、电子设备和计算机程序产品,该方法能够对语音数据进行识别,得到语音数据对应的文本数据和对象切换点。然后按照对象切换点进行切分,得到语音数据对应的多个语音数据单元,以及文本数据对应的多个文本数据单元,其中,语音数据单元和由该语音数据单元识别得到的文本数据单元对应相同的语音内容。最后根据各语音内容对应的语音数据单元和文本数据单元,识别得到各语音内容的情感。如此设置,可以按照说话对象改变的点进行切分,得到单个说话对象对应的语音数据单元和文本数据单元,从语音和文本两个维度对单个说话对象的语音内容情感进行识别,如此可以得到更加准确的识别结果。

Patent Agency Ranking