用于长格式音频的语音识别的假设拼接器

    公开(公告)号:CN116648744A

    公开(公告)日:2023-08-25

    申请号:CN202180085554.4

    申请日:2021-11-23

    Abstract: 一种用于长格式音频的语音识别的假设拼接器提供了优越的性能,诸如更高的准确性和更低的计算成本。所公开的操作示例包括:将音频流分割成多个音频片段;标识多个音频片段中的每个音频片段内的多个说话者;对多个音频片段中的每个音频片段执行自动语音识别(ASR)以生成多个短片段假设;将短片段假设中的至少一部分合并到第一合并假设集合中;将拼接符号插入第一合并假设集合中,拼接符号包括窗口改变(WC)符号;以及利用基于网络的假设拼接器将第一合并假设集合汇总到第一汇总假设中。公开了多种变型,包括基于对齐的拼接器和串行拼接器,它们可以操作为特定于说话者的拼接器或多说话者拼接器,并且还可以支持用于不同假设配置的多个选项。

    在多说话者音频流上训练和使用转录生成模型

    公开(公告)号:CN118451496A

    公开(公告)日:2024-08-06

    申请号:CN202280080966.3

    申请日:2022-10-27

    Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。

    具有延迟阈值的序列到序列语音识别

    公开(公告)号:CN115362497A

    公开(公告)日:2022-11-18

    申请号:CN202180026145.7

    申请日:2021-02-15

    Abstract: 一种计算系统,包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录,该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入,一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态,一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记,输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。

Patent Agency Ranking