可定制语音唤醒方法及系统

    公开(公告)号:CN106098059A

    公开(公告)日:2016-11-09

    申请号:CN201610462976.X

    申请日:2016-06-23

    Abstract: 一种可定制语音唤醒方法及系统,通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练,采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性,即高准确率,低误唤醒,另一方面对应用系统的计算资源消耗相对较少。

    一种深度混合生成网络自适应方法及系统

    公开(公告)号:CN108417207B

    公开(公告)日:2020-06-30

    申请号:CN201810054314.8

    申请日:2018-01-19

    Inventor: 钱彦旻 丁文 谭天

    Abstract: 本发明公开一种深度混合生成网络自适应方法及系统,所述方法包括:从训练数据集中获取的训练音频数据和相应于训练音频数据的训练文本数据分别作为输入和输出,来训练深度混合生成网络,以从高斯混合模型中获取全局音素均值;根据说话者的注册音频数据确定说话者的说话者音素均值;确定用于将全局音素均值向说话者音素均值转化的自适应转化矩阵;基于自适应转化矩阵调整高斯混合模型以实现深度混合生成网络的自适应。本发明中通过将深度神经网络与高斯混合模型的结合,使得进行自适应时只需要对高斯混合模型网络进行自适应调整即可,而不必对整个网络进行重新训练,所以简化了自适应过程,提升了自适应效率。

    基于单向自标注辅助信息的多视角语言识别方法

    公开(公告)号:CN107452374B

    公开(公告)日:2020-05-05

    申请号:CN201710561261.4

    申请日:2017-07-11

    Abstract: 一种基于单向自标注辅助信息的多视角语言识别方法,首先通过标注模型对当前词和词层面的辅助信息进行自标注,得到当前词的自标注辅助特征的概率分布;然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征,从而将双向辅助信息转换为单向辅助信息;再将单向辅助信息和当前词一起输入多视角语言模型进行解析,得到当前词的准确语义。本发明通过将多视角神经网络中的词层面的辅助特征,从而消除后文信息造成的负面影响,采用多种不同的词层面的辅助信息,引入具有树形结构的词层面辅助特征进行多视角语言模型训练,并且在标注模型和语言模块分别使用稳定算子来调整不同的适应各自的学习率等特点。

    端到端语音识别模型的训练方法及系统

    公开(公告)号:CN110556100A

    公开(公告)日:2019-12-10

    申请号:CN201910853470.5

    申请日:2019-09-10

    Abstract: 本发明公开一种端到端语音识别模型的训练方法,所述端到端语音识别模型包括编码器和解码器,所述方法包括:预先训练得到声学模型和交叉熵语言模型;基于所述声学模型初始化所述端到端语音识别模型的编码器;根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器;对初始化之后的所述端到端语音识别模型进行训练。采用多阶段预训练的方式,避免了模型训练早期的长时间缓慢学习阶段,从而极大削减模型训练时间。同时这种策略没有超参数需要调优,相对于现有技术,避免了大量繁琐的超参数调优。

    用于儿童的语音识别方法及系统

    公开(公告)号:CN110246489A

    公开(公告)日:2019-09-17

    申请号:CN201910516503.7

    申请日:2019-06-14

    Inventor: 钱彦旻 李晨达

    Abstract: 本发明实施例提供一种用于儿童的语音识别方法。该方法包括:通过成人训练语料库确定成人训练语料库内各音频的声学特征;基于预设目标儿童语音的声学特征对成人训练语料库中各音频进行韵律调整,以使得成人训练语料库内各音频的声学特征与目标儿童语音的声学特征匹配;根据与目标儿童语音的声学特征匹配后的成人训练语料库训练语音识别模型,通过语音识别模型识别儿童语音。本发明实施例还提供一种用于儿童的语音识别系统。本发明实施例通过调节成人训练语料库的韵律,使其达到儿童和成人的声学特征的匹配,进而不需要收集儿童语料库,使用声学特征匹配后的成人训练语料库训练语音识别系统,提高了所述语音识别系统对儿童语音的识别性能。

    用于数据增强的语音加噪方法及系统

    公开(公告)号:CN110211575A

    公开(公告)日:2019-09-06

    申请号:CN201910511890.5

    申请日:2019-06-13

    Abstract: 本发明实施例提供一种用于数据增强的语音加噪方法。该方法包括:将无噪音频和带噪音频的说话人向量输入至条件变分自编码模型,对模型编码器输出的向量均值以及方差向量随机高斯分布采样,得到噪音隐向量;将噪音隐向量和无噪音频输入至模型,通过模型解码器输出拟噪音频;基于拟噪音频和带噪音频训练条件该模型,对得到多种噪音隐向量建模,得到噪音隐变量空间;在噪音隐变量空间中随机采样作为加噪隐向量,将加噪隐向量和无噪音频输入至模型解码器,得到用于数据增强的新带噪音频。本发明实施例还提供一种用于数据增强的语音加噪系统。本发明实施例在说话人向量上建模,通过隐空间特征提取,产生更多样的噪声数据,提升语音识别模型的鲁棒性。

    一种深度混合生成网络自适应方法及系统

    公开(公告)号:CN108417207A

    公开(公告)日:2018-08-17

    申请号:CN201810054314.8

    申请日:2018-01-19

    Inventor: 钱彦旻 丁文 谭天

    Abstract: 本发明公开一种深度混合生成网络自适应方法及系统,所述方法包括:从训练数据集中获取的训练音频数据和相应于训练音频数据的训练文本数据分别作为输入和输出,来训练深度混合生成网络,以从高斯混合模型中获取全局音素均值;根据说话者的注册音频数据确定说话者的说话者音素均值;确定用于将全局音素均值向说话者音素均值转化的自适应转化矩阵;基于自适应转化矩阵调整高斯混合模型以实现深度混合生成网络的自适应。本发明中通过将深度神经网络与高斯混合模型的结合,使得进行自适应时只需要对高斯混合模型网络进行自适应调整即可,而不必对整个网络进行重新训练,所以简化了自适应过程,提升了自适应效率。

    单信道多说话人身份识别方法及系统

    公开(公告)号:CN108417201A

    公开(公告)日:2018-08-17

    申请号:CN201810053962.1

    申请日:2018-01-19

    Inventor: 俞凯 钱彦旻 王帅

    Abstract: 本发明公开一种单信道多说话人身份识别方法及系统,所述单信道多说话人身份识别方法包括:获取待识别的关于单信道多说话人的语音数据的混合帧级特征;将混合帧级特征输入至卷积神经网络模型,以由卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布;根据帧级别概率分布,预测关于多说话人各自作为参考目标说话人的语句级别概率分布;以及基于语句级别概率分布,识别语音数据所对应的说话人身份。本发明实施例的单信道多说话人身份识别方法,以卷积神经网络模型作为学习机器,提高了说话人身份识别的高精确度,并不需要对每种可能的说话人组合都建模,对计算和存储资源的消耗较低,提高了身份识别系统的性能。

    用于智能对话语音平台的音频训练和识别方法及电子设备

    公开(公告)号:CN108109613A

    公开(公告)日:2018-06-01

    申请号:CN201711320515.X

    申请日:2017-12-12

    Abstract: 本发明公开用于智能对话语音平台的音频训练或识别方法、系统及电子设备。其中,方法包括:接收音频数据;提取音频数据的身份向量特征,对身份向量特征进行预处理;其中,预处理包括:提取音频数据的每一帧音频的梅尔频率倒谱系数特征;在每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后,对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征,以生成每一帧音频的在线身份向量特征;按照帧级别,将各帧音频的在线身份向量特征和梅尔频率倒谱系数特征进行拼接,以生成音频特征;将预处理后的音频特征输入至基于背景说话人模型的高斯混合模型系统,以进行音频训练或识别处理。能够实现同时匹配说话人身份和说话的内容,识别率更高。

Patent Agency Ranking