用于长格式音频的语音识别的假设拼接器

    公开(公告)号:CN116648744A

    公开(公告)日:2023-08-25

    申请号:CN202180085554.4

    申请日:2021-11-23

    Abstract: 一种用于长格式音频的语音识别的假设拼接器提供了优越的性能,诸如更高的准确性和更低的计算成本。所公开的操作示例包括:将音频流分割成多个音频片段;标识多个音频片段中的每个音频片段内的多个说话者;对多个音频片段中的每个音频片段执行自动语音识别(ASR)以生成多个短片段假设;将短片段假设中的至少一部分合并到第一合并假设集合中;将拼接符号插入第一合并假设集合中,拼接符号包括窗口改变(WC)符号;以及利用基于网络的假设拼接器将第一合并假设集合汇总到第一汇总假设中。公开了多种变型,包括基于对齐的拼接器和串行拼接器,它们可以操作为特定于说话者的拼接器或多说话者拼接器,并且还可以支持用于不同假设配置的多个选项。

Patent Agency Ranking