并行语音合成方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN112151003B

    公开(公告)日:2025-01-28

    申请号:CN201910569448.8

    申请日:2019-06-27

    Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。

    语音合成模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN110619867B

    公开(公告)日:2020-11-03

    申请号:CN201910927040.3

    申请日:2019-09-27

    Abstract: 本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质,涉及计算机智能语音领域。具体实现方案为:将当前样本的音节输入序列、音素输入序列和汉字输入序列作为待训练模型的编码器的输入,在编码器的输出端得到各个序列的编码表示;将编码表示的三个序列进行融合,得到三个序列的一个加权组合;将该加权组合作为注意力模块的输入,在注意力模块的输出端得到音节输入序列、音素输入序列和汉字输入序列的加权组合在各个时刻上的加权平均;将该加权平均作为待训练模型的解码器的输入,在解码器的输出端得到当前样本的语音Mel谱输出。本申请实施例可以有效地改善发音效果,为语音产品提供高表现力和高自然度的中文合成语音。

    通讯录联系人匹配方法和装置

    公开(公告)号:CN105187656B

    公开(公告)日:2018-09-07

    申请号:CN201510613491.1

    申请日:2015-09-23

    Abstract: 本发明公开了一种通讯录联系人匹配方法和装置,其中,通讯录联系人匹配方法包括:获取用户发送的语音信息,并将语音信息识别为文本信息;将文本信息转换为第一音子序列,并根据第一音子序列生成第一状态序列;获取通讯录中的多个联系人信息;分别将多个联系人信息转换为对应的第二音子序列,并根据第二音子序列生成第二状态序列;计算第一状态序列与多个第二状态序列的相似度,并根据相似度对多个第二状态序列进行排序,以及将排名前N名的第二状态序列对应的联系人信息反馈给用户。本发明实施例的通讯录联系人匹配方法和装置,提高了用户语音搜索联系人姓名的准确率。

    高表现力的语音合成方法和装置

    公开(公告)号:CN104392716B

    公开(公告)日:2017-10-13

    申请号:CN201410645715.2

    申请日:2014-11-12

    Abstract: 本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括:将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。

    语音识别系统的端点检测方法及系统

    公开(公告)号:CN105118502B

    公开(公告)日:2017-05-10

    申请号:CN201510413643.3

    申请日:2015-07-14

    Abstract: 本发明提出一种语音识别系统的端点检测方法及系统,其中,该方法包括:基于长短时记忆神经网络训练声学识别模型;通过预设语音端点检测算法初步识别出待识别语音信号的语音端点;分帧提取待识别语音信号的语音特征信息,并将语音特征信息输入声学识别模型,以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果;以及根据声学识别结果对初步识别出的语音端点进行调整。本发明实施例的语音识别系统的端点检测方法,提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式,准确定位了待识别语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。

    语音识别语法树的构图方法及装置

    公开(公告)号:CN105161095B

    公开(公告)日:2017-03-22

    申请号:CN201510455696.1

    申请日:2015-07-29

    Inventor: 彭守业 贾磊

    CPC classification number: G06F17/20 G10L15/06 G10L15/28

    Abstract: 本发明公开了一种语音识别语法树的构图方法及装置,其中所述方法包括:确定与应用场景对应的槽,且为每个槽赋予对应的至少一个字词;根据预定语法路径中的槽顺序和槽对应的字词,形成语法语句,并解析语法语句中字词的语音,确定对应的声学模型;根据所述应用场景的预定语法路径中的槽构建语法树,其中,槽与语法树中的节点对应,且节点中存储该槽的槽索引,所述槽索引用于索引对应字词的声学模型存储位置。本发明实施例只需要确定与应用场景对应的槽,为每个槽赋予对应的至少一个字词槽中,通过构建与槽对应的语法树,在节点中存储该槽的槽索引,从而完成构图过程,能够大大节约内存空间和构图消耗时间。

    语法编译方法、语义解析方法以及对应装置

    公开(公告)号:CN103294666B

    公开(公告)日:2017-03-01

    申请号:CN201310203987.2

    申请日:2013-05-28

    CPC classification number: G06F17/274 G06F8/42 G06F8/427 G06F17/271 G06F17/2785

    Abstract: 本发明提供了一种语法编译方法、语义解析方法以及对应装置,按照语义的常用语句表达采用基于逻辑语法直观语言(LGML)预先定义对应的语法描述文件和词类描述文件,在语法描述文件中由词类、操作符和函数构成常用语句的描述,词类描述文件用于描述词类的具体取值;将语法描述文件和词类描述文件分别按照预设顺序的归约方法生成语法描述文件的语法树和词类描述文件的词类树,将词类树挂接在语法树中对应词类的位置,形成语义的语法树,从而实现语法编译。基于该方式建立的语义的语法树,采用整句匹配、语义映射匹配或者整句匹配和语义映射匹配相结合的方式进行语义解析。

    基于深层神经网络的声学模型训练方法、主机和系统

    公开(公告)号:CN103680496B

    公开(公告)日:2016-08-10

    申请号:CN201310704701.9

    申请日:2013-12-19

    Inventor: 贾磊 苏丹 胡娜

    Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。

Patent Agency Ranking