一种多个说话人的语音转折点检测方法及装置

    公开(公告)号:CN112951212A

    公开(公告)日:2021-06-11

    申请号:CN202110419474.X

    申请日:2021-04-19

    Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

    基于卷积循环实体网络的端对端对话状态跟踪方法及系统

    公开(公告)号:CN110866403B

    公开(公告)日:2021-06-08

    申请号:CN201810916744.6

    申请日:2018-08-13

    Abstract: 本发明提出了基于卷积循环实体网络的端对端对话状态跟踪方法和系统,包括:步骤1)将对话表示成多个句子矩阵集合D={S1,...St},Si,1≤i≤t为第i个由若干词向量组成的句子矩阵;步骤2)该矩阵集合D经过一个可训练的卷积神经网络模块,最大池化后得到固定长度的句子向量;步骤3)使用动态记忆将各个固定长度的句子向量进行编码,使用动态记忆的最后一个隐层ht表示整个对话;步骤4)对于每个预先定义的语义槽,建立一层从ht到该语义槽所有可能值的全连接的神经网络,得到各个语义槽在各个值上的概率分布;步骤5)取最大概率所在的值作为该语义槽的预测结果,得到该对话当前的对话状态。本发明可自动学习和语义槽相关的文本表示,提高了对话状态跟踪的性能。

    基于空间特征补偿的多通道语音识别声学建模方法及装置

    公开(公告)号:CN110047478B

    公开(公告)日:2021-06-08

    申请号:CN201810040168.3

    申请日:2018-01-16

    Abstract: 本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。

    一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

    公开(公告)号:CN112820301A

    公开(公告)日:2021-05-18

    申请号:CN202110277452.4

    申请日:2021-03-15

    Abstract: 本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

    一种基于外部知识的情感迁移方法

    公开(公告)号:CN110852060B

    公开(公告)日:2021-05-18

    申请号:CN201810818632.7

    申请日:2018-07-24

    Inventor: 颜永红 涂曼姝

    Abstract: 本发明公开了一种基于外部知识的情感迁移方法,所述方法包括:步骤1)构建和训练基于情感词典D的词典匹配卷积神经网络;步骤2)对于测试集的每一个句子T,取其不重复的所有词组成T_set,将T、T_set和情感词典D输入训练好的词典匹配卷积神经网络;得到最终的分类结果。相对于手动选择转换词,本发明的方法将外部知识增加至网络中,可以避免人为制定规则带来的干扰;在使用少量的源域标注数据的情况下,本发明的方法能够得到与最好结果相似的正确率。

    混响语音的混响抑制方法及装置

    公开(公告)号:CN112687284A

    公开(公告)日:2021-04-20

    申请号:CN202011521566.0

    申请日:2020-12-21

    Abstract: 本发明提供了一种混响语音的混响抑制方法及装置,应用于接收语音的终端,包括:利用编码器模型获得混响语音时域信号的幅度谱对应的多个尺度下的编码特征;根据混响时间对多个尺度的编码特征进行加权处理;根据加权处理后的编码特征,利用解码器模型获得新的幅度谱;对新的幅度谱进行相关计算,获得混响语音时域信号经过混响抑制后的直达语音时域信号;本发明通过混响时间对多个尺度的编码特征进行处理,使本方案可以适应不同环境下混响抑制,提高了进行混响抑制的模型的鲁棒性。

    一种基于深度学习降低MFCC特征失真的语音增强方法

    公开(公告)号:CN111243617A

    公开(公告)日:2020-06-05

    申请号:CN202010033002.6

    申请日:2020-01-13

    Abstract: 本发明公开了一种基于深度学习降低MFCC特征失真的语音增强方法。通过处理混合语音得到其频谱,提取其频谱幅度;将频谱幅度输入神经网络得到目标语音理想幅度掩蔽估计值;将此估计值乘以混合信号的频谱幅度得到增强语音的频谱幅度;根据增强语音的频谱幅度得到增强语音的MFCC声学特征;处理目标语音得到其频谱,提取其频谱幅度;根据目标语音的频谱幅度得到目标语音的MFCC声学特征;将增强语音与目标语音的频谱幅度误差,以及增强语音与目标语音的MFCC声学特征误差按比例相加后作为损失函数训练神经网络。使用训练得到的神经网络实施语音增强方法。通过上述方法训练神经网络,减小MFCC声学特征失真。提高后续语音增强方法得到信号的识别准确性。

    一种基于深度学习的双通道声源定位方法

    公开(公告)号:CN111239686A

    公开(公告)日:2020-06-05

    申请号:CN202010099231.8

    申请日:2020-02-18

    Abstract: 本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。

    联结主义时间分类和截断式注意力联合在线语音识别技术

    公开(公告)号:CN111179918A

    公开(公告)日:2020-05-19

    申请号:CN202010106791.1

    申请日:2020-02-20

    Abstract: 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。

    一种连续语音流中的叠音检测方法

    公开(公告)号:CN106847267B

    公开(公告)日:2020-04-14

    申请号:CN201510885336.5

    申请日:2015-12-04

    Abstract: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101‑1)对语音流进行端点检测,去除静音段;步骤101‑2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101‑3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101‑4)再将步骤101‑3)的处理结果输入HMM检测器进行初次判决。

Patent Agency Ranking