一种语音关键词检索方法、系统和电子装置

    公开(公告)号:CN113192535B

    公开(公告)日:2022-09-09

    申请号:CN202110412011.0

    申请日:2021-04-16

    Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。

    一种元音弱读检测方法及装置

    公开(公告)号:CN113066510B

    公开(公告)日:2022-08-12

    申请号:CN202110455748.0

    申请日:2021-04-26

    Abstract: 本申请提供了一种元音弱读检测方法及装置。该方法包括:提取用户朗读目标文本的语音信号的声学特征,并对声学特征进行编码,获得的声学编码向量序列;然后,将目标文本对应的带重音标签的音素序列作为发音先验信息,采用联结主义时间分类(Connectionisttemporal classification,CTC)和注意力相结合的解码方法进行解码,最后采用波束搜索方法获得最终的带元音弱读标签的音素序列。本申请将带重音标签的音素序列作为发音先验信息,辅助元音弱读检测,可提高检测的准确度;解码时采用CTC和注意力联合解码方法,解决了元音弱读情况下,采用强制对齐会导致检测的准确率下降的问题。

    利用音频判别模型进行音频判别的方法和装置

    公开(公告)号:CN113724731A

    公开(公告)日:2021-11-30

    申请号:CN202111007671.7

    申请日:2021-08-30

    Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

    一种基于线性自注意力的语音合成方法及系统

    公开(公告)号:CN113707127A

    公开(公告)日:2021-11-26

    申请号:CN202111007669.X

    申请日:2021-08-30

    Abstract: 本申请涉及一种基于线性自注意力的语音合成方法和系统,所述方法包括:根据音频进行处理,获得对应文本的音素序列;根据所述音素序列通过神经网络编码器得到第一文本特征序列;所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;根据所述第二文本特征序列通过神经网络解码器得到对应的梅尔谱特征序列;根据所述梅尔谱特征序列通过神经网络声码器得到转换后的语音。本申请以线性的时间、空间复杂度输出梅尔谱,输入神经网络声码器得到语音。该方法解决了传统并行语音合成声学模型时间、空间复杂度较高的问题。

    一种语音关键词检索方法、系统和电子装置

    公开(公告)号:CN113192535A

    公开(公告)日:2021-07-30

    申请号:CN202110412011.0

    申请日:2021-04-16

    Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。

    一种语音唤醒方法及装置
    129.
    发明公开

    公开(公告)号:CN112951211A

    公开(公告)日:2021-06-11

    申请号:CN202110437391.3

    申请日:2021-04-22

    Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。

    全连接多尺度的残差网络及其进行声纹识别的方法

    公开(公告)号:CN111833886B

    公开(公告)日:2021-03-23

    申请号:CN202010731632.0

    申请日:2020-07-27

    Abstract: 本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。

Patent Agency Ranking