一种语音唤醒方法及装置
    31.
    发明授权

    公开(公告)号:CN112951211B

    公开(公告)日:2022-10-18

    申请号:CN202110437391.3

    申请日:2021-04-22

    Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。

    联结主义时间分类和截断式注意力联合在线语音识别技术

    公开(公告)号:CN111179918B

    公开(公告)日:2022-10-14

    申请号:CN202010106791.1

    申请日:2020-02-20

    Abstract: 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。

    一种基于增强技术的对话状态追踪方法及系统

    公开(公告)号:CN114996479A

    公开(公告)日:2022-09-02

    申请号:CN202210707870.7

    申请日:2022-06-21

    Abstract: 本申请提供一种基于增强技术的对话状态追踪方法,包括:获取数据库和已知领域对话状态追踪模型;利用数据增强技术从数据库和已知领域训练样本获取新领域本轮对话文本、上轮对话状态、本轮对话状态标签;使用槽位值类别预测器预测新槽位的类型,输出本轮对话文本编码矩阵;利用特征增强技术对本轮对话文本编码矩阵提取多个上下文特征向量;根据预测的槽位类型、多个上下文特征向量在槽位值解码器中解码得到新槽位值,将上轮对话状态中的槽位值进行更新得到本轮对话状态;比较本轮对话状态与本轮对话状态标签的差异并梯度回传,采用神经网络技术迭代训练对话状态追踪模型以减少差异,该模型能够实现新领域的当前轮次会话状态追踪。

    一种多个说话人的语音转折点检测方法及装置

    公开(公告)号:CN112951212B

    公开(公告)日:2022-08-26

    申请号:CN202110419474.X

    申请日:2021-04-19

    Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

    一种语音识别模型的个性化联邦学习方法和系统

    公开(公告)号:CN114783443A

    公开(公告)日:2022-07-22

    申请号:CN202210325453.6

    申请日:2022-03-30

    Abstract: 本申请提出一种语音识别模型的个性化联邦学习方法和系统,应用于中心端和多个客户端,在中心端,该方法包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定多个客户端中每个客户端的语音信息的个性化特征;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。本申请通过将语音识别模型的特征提取器与分类器进行解耦优化的方式实现个性化联邦学习,有效提升语音识别模型性能,降低错误识别率。

    一种基于私有参数的语音识别联邦学习方法和系统

    公开(公告)号:CN114783425A

    公开(公告)日:2022-07-22

    申请号:CN202210326775.2

    申请日:2022-03-30

    Abstract: 本申请涉及一种基于私有参数的语音识别联邦学习方法和系统,应用于中心端和多个客户端,在所述中心端,所述方法包括:利用本地有标注语音样本进行有监督地训练语音识别模型,获得所述语音识别模型的种子模型;根据所述种子模型确定第一私有参数和第一共享参数;根据多个第二共享参数更新所述第一共享参数;所述多个第二共享参数由多个客户端上传得到;将更新后的所述第一共享参数传递至所述多个客户端中每个客户端。本申请实施例利用模型中的私有参数实现对每个客户端的个性化建模,从而可以通过一次训练产生针对多个客户端的个性化语音识别模型,有效提升语音识别模型在每个客户端的性能。

    一种基于自适应带宽判断的带宽扩展方法及系统

    公开(公告)号:CN108198571B

    公开(公告)日:2021-07-30

    申请号:CN201711394223.0

    申请日:2017-12-21

    Abstract: 本发明公开了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;步骤3)对信号y(n)的进行带宽扩展,然后输出。本发明的方法及系统在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展。

    一种元音弱读检测方法及装置

    公开(公告)号:CN113066510A

    公开(公告)日:2021-07-02

    申请号:CN202110455748.0

    申请日:2021-04-26

    Abstract: 本申请提供了一种元音弱读检测方法及装置。该方法包括:提取用户朗读目标文本的语音信号的声学特征,并对声学特征进行编码,获得的声学编码向量序列;然后,将目标文本对应的带重音标签的音素序列作为发音先验信息,采用联结主义时间分类(Connectionisttemporal classification,CTC)和注意力相结合的解码方法进行解码,最后采用波束搜索方法获得最终的带元音弱读标签的音素序列。本申请将带重音标签的音素序列作为发音先验信息,辅助元音弱读检测,可提高检测的准确度;解码时采用CTC和注意力联合解码方法,解决了元音弱读情况下,采用强制对齐会导致检测的准确率下降的问题。

    一种多通道语音增强方法及装置

    公开(公告)号:CN113030862A

    公开(公告)日:2021-06-25

    申请号:CN202110268660.8

    申请日:2021-03-12

    Abstract: 本申请提供了一种多通道语音增强方法及装置。该方法包括:对多通道语音频域信号做去混响处理;然后根据多通道语音频域信号中声源的方位信息构建复角中心高斯混合概率模型,并通过复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;进行通过获得的时频掩蔽矩阵获得最小方差无失真滤波器并对多通道语音频域信号进行滤波,以及通过目标语音时频掩蔽矩阵对信号进行后滤波,获得最终的目标语音。该方法通过方位信息构建复角中心高斯混合概率模型,解决了模型无序输出时频掩蔽导致目标语音和噪声发生置换的问题,此外,去混响处理以及利用目标语音时频掩蔽进行后滤波处理,提升了目标语音的可懂度。

Patent Agency Ranking