语音交互的方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN110992940A

    公开(公告)日:2020-04-10

    申请号:CN201911168794.1

    申请日:2019-11-25

    Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。

    用于处理语音信号的方法、装置、设备和介质

    公开(公告)号:CN110827799A

    公开(公告)日:2020-02-21

    申请号:CN201911146748.1

    申请日:2019-11-21

    Abstract: 根据本公开的实施例,提供了用于处理语音信号的方法、装置、设备和计算机可读存储介质。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。通过该方法,可以使得语音判定结果更准确,同时使得人机之间的交互更加顺畅,提升了人机交互的体验。

    语音合成模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN110619867A

    公开(公告)日:2019-12-27

    申请号:CN201910927040.3

    申请日:2019-09-27

    Abstract: 本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质,涉及计算机智能语音领域。具体实现方案为:将当前样本的音节输入序列、音素输入序列和汉字输入序列作为待训练模型的编码器的输入,在编码器的输出端得到各个序列的编码表示;将编码表示的三个序列进行融合,得到三个序列的一个加权组合;将该加权组合作为注意力模块的输入,在注意力模块的输出端得到音节输入序列、音素输入序列和汉字输入序列的加权组合在各个时刻上的加权平均;将该加权平均作为待训练模型的解码器的输入,在解码器的输出端得到当前样本的语音Mel谱输出。本申请实施例可以有效地改善发音效果,为语音产品提供高表现力和高自然度的中文合成语音。

    用LSTM循环神经网络模型进行语音识别的方法和装置

    公开(公告)号:CN105513591B

    公开(公告)日:2019-09-03

    申请号:CN201510967532.7

    申请日:2015-12-21

    Abstract: 本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。

    语音识别方法和装置
    15.
    发明公开

    公开(公告)号:CN109036384A

    公开(公告)日:2018-12-18

    申请号:CN201811036633.2

    申请日:2018-09-06

    Abstract: 本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括:从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。该实施方式提升了声学置信度判决精度。

    语音识别方法和装置
    16.
    发明公开

    公开(公告)号:CN108877782A

    公开(公告)日:2018-11-23

    申请号:CN201810726721.9

    申请日:2018-07-04

    Inventor: 白锦峰 陈智鹏

    Abstract: 本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括:获取语音,将该语音输入预先训练的声学模型,基于该声学模型的输出,得到语音识别结果;以及该声学模型的构建步骤包括:确定预设的语料库中语音的标注文本的发音单元,得到该标注文本的发音单元序列;对该发音单元序列中的至少两个相邻的发音单元进行组合,生成包含组合的语音的标注序列;基于各个语音的标注序列,训练得到该声学模型。本申请实施例能够增强声学模型对包括不同语言的语音的识别能力,提高声学模型的准确性。

    语音合成模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN110619867B

    公开(公告)日:2020-11-03

    申请号:CN201910927040.3

    申请日:2019-09-27

    Abstract: 本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质,涉及计算机智能语音领域。具体实现方案为:将当前样本的音节输入序列、音素输入序列和汉字输入序列作为待训练模型的编码器的输入,在编码器的输出端得到各个序列的编码表示;将编码表示的三个序列进行融合,得到三个序列的一个加权组合;将该加权组合作为注意力模块的输入,在注意力模块的输出端得到音节输入序列、音素输入序列和汉字输入序列的加权组合在各个时刻上的加权平均;将该加权平均作为待训练模型的解码器的输入,在解码器的输出端得到当前样本的语音Mel谱输出。本申请实施例可以有效地改善发音效果,为语音产品提供高表现力和高自然度的中文合成语音。

    语音识别的建模方法和装置

    公开(公告)号:CN105551483A

    公开(公告)日:2016-05-04

    申请号:CN201510920809.0

    申请日:2015-12-11

    Abstract: 本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。

    用LSTM循环神经网络模型进行语音识别的方法和装置

    公开(公告)号:CN105513591A

    公开(公告)日:2016-04-20

    申请号:CN201510967532.7

    申请日:2015-12-21

    Abstract: 本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。

    韵律层级预测模型的生成及韵律层级预测方法和装置

    公开(公告)号:CN105185373A

    公开(公告)日:2015-12-23

    申请号:CN201510477652.9

    申请日:2015-08-06

    Abstract: 本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。

Patent Agency Ranking