特定说话人语音识别方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN118298830A

    公开(公告)日:2024-07-05

    申请号:CN202410520839.1

    申请日:2024-04-28

    Abstract: 本申请公开了一种特定说话人语音识别方法、装置、相关设备及计算机程序产品,采用解耦每个说话人的方式,给语音识别模型一个目标说话人的提示语音及待分离的混合语音,让模型一次只输出混合语音中该目标说话人的说话内容对应的识别文本,模型每次输出仅包含一个目标说话人的说话内容识别文本,可以保证说话人与说话内容识别文本间的对应匹配,且避免传统方案由于分隔符位置预测错误所导致的多个说话人的说话内容预测错误的情况。本申请方案中模型能够以目标说话人的提示语音作为参考,更加准确的从混合语音中分离出目标说话人的说话内容识别文本,提升了目标说话人语音识别结果的准确度。

    音频文本强制对齐方法、装置、设备及可读存储介质

    公开(公告)号:CN118230715A

    公开(公告)日:2024-06-21

    申请号:CN202410468801.4

    申请日:2024-04-18

    Abstract: 本申请公开了一种音频文本强制对齐方法、装置、设备及可读存储介质。本方案中,在确定待对齐音频以及与待对齐音频对应的待对齐文本的音素标签序列之后,基于对齐路径中隶属于两个相邻单字的相邻两个音素标签之间包括预设停顿间隔标签,并且隶属于同一个单字的相邻两个音素标签之间不包括预设停顿间隔标签的规则,根据待对齐音频中各音频帧对应预设停顿间隔标签、预设静音标签、预设各音素标签的概率和待对齐文本的音素标签序列确定最终对齐路径,能够使得最终对齐路径中,不会出现隶属于两个相邻单字的相邻两个音素标签之间丢失停顿间隔的问题,也不会出现隶属于同一个单字的相邻两个音素标签之间包括停顿间隔的问题。

Patent Agency Ranking