端到端的汉语韵律层级结构预测模型的构建方法及系统

    公开(公告)号:CN107451115A

    公开(公告)日:2017-12-08

    申请号:CN201710562102.6

    申请日:2017-07-11

    Abstract: 本发明涉及一种端到端的汉语韵律层级结构预测模型的构建方法及系统,所述构建方法包括:根据多个裸文本得到字嵌入embedding层的字向量序列;基于长短时间记忆BLSTM神经网络和条件随机场CRF分类器,根据所述字向量序列,构建汉语韵律层级结构的预测模型,用于预测待处理文本的汉语韵律层级结构。本发明端到端的汉语韵律层级结构预测模型的构建方法及系统将字embedding层、BLSTM神经网络及CRF分类器串联在一起,根据字embedding层的字向量序列,基于BLSTM神经网络及CRF分类器得到汉语韵律层级结构的预测模型,实现对待处理文本的准确预测。

    基于口音瓶颈特征的声学模型自适应方法

    公开(公告)号:CN106875942A

    公开(公告)日:2017-06-20

    申请号:CN201611232996.4

    申请日:2016-12-28

    CPC classification number: G10L15/16 G10L15/02 G10L15/063 G10L15/065 G10L17/02

    Abstract: 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。

    音素时长预测建模方法及音素时长预测方法

    公开(公告)号:CN106601226A

    公开(公告)日:2017-04-26

    申请号:CN201611027187.X

    申请日:2016-11-18

    Abstract: 本发明涉及一种对音素时长进行建模和预测的方法,利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质。利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度。

    一种人机对话中教授意图答案生成方法

    公开(公告)号:CN106095950A

    公开(公告)日:2016-11-09

    申请号:CN201610422829.X

    申请日:2016-06-14

    Abstract: 本发明公开了一种人机对话中教授意图答案生成方法,所述方法包括:对于收到的对话,计算其句间相似度,然后对当前对话语句进行对话意图识别;如果当前对话的意图是闲聊意图,则将当前对话及其对应的询问意图值添加至历史记录中,并直接通过搜索知识库或者网络返回答案;如果当前对话的意图是教授意图则进入下一步骤;在所述历史记录中寻找当前对话对应的问句;结合当前对话及网络信息,进行多轮模拟自我对话获取相关答案集合;对于相关答案集合进行过滤;基于每条答案的权重进行摘要抽取,权重值最高的答案作为摘要抽取的结果及当前对话的回答返回。本发明能够对人机对话中教授意图下对用户的教授内容进行良好的反馈,提高人机对话的满意度。

    一种波形拼接语音合成的选音方法

    公开(公告)号:CN103531196B

    公开(公告)日:2016-04-13

    申请号:CN201310481306.9

    申请日:2013-10-15

    Abstract: 本发明公开了一种波形拼接语音合成的选音方法,该方法包括以下步骤:基于原始音频进行基于隐马尔可夫的模型训练,得到声学模型集及对应的特征决策树;输入若干训练文本,基于特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目标音节;根据目标语音与其对应的候选基元的相似度,和候选基元的各声学参数在当前声学模型下的似然概率,训练得到相似度分类器;输入任意待合成文本,基于相似度分类器剔除不相似的候选基元,对于剩余的候选基元,利用拼接代价最小原则选择得到最佳基元,并拼接得到合成语音。采用本发明方法可以合成出较高音质的语音。

    一种基于文本信息的波形拼接语音合成方法

    公开(公告)号:CN104112444A

    公开(公告)日:2014-10-22

    申请号:CN201410362838.5

    申请日:2014-07-28

    Inventor: 陶建华 刘善峰

    Abstract: 本发明一种基于文本信息的波形拼接语音合成方法,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。

    在医学影像中获取发音器官轮廓的方法

    公开(公告)号:CN102831606B

    公开(公告)日:2014-10-22

    申请号:CN201210272187.1

    申请日:2012-08-01

    Abstract: 本发明提供了一种在医学影像中获取发音器官轮廓的方法。该方法包括:对于医学图像,利用唇部与背景的自动分割阈值,对医学影像中嘴唇与背景区域进行二值化,得到唇部轮廓;在唇部轮廓包含的面部范围内,提取上牙齿轮廓、下牙齿轮廓、上颌轮廓和下颌轮廓;针对上颌轮廓和下颌轮廓之间图像区域,获取舌位轮廓的可靠边缘点;以及由舌位轮廓的可靠边缘点拟合出舌位边缘轮廓。本发明能自动从影像背景中分割出发音人头部、器官区域,整个过程自动完成,无需人工交互。

    音频数据的编码方法及解码方法

    公开(公告)号:CN103035238B

    公开(公告)日:2014-09-17

    申请号:CN201210487489.0

    申请日:2012-11-27

    Abstract: 本发明提供了一种音频数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过短时能量和短时过零率进行端点检测,剔除原始音频中的非音频数据,获得语音段数据;从语音段数据提取特征参数,通过已训练的隐马尔科夫模型和Viterbi算法,对每帧语音段数据进行状态识别,确定状态序列和状态时长;以及对状态序列和状态时长进行编码,生成音频数据包。本发明可以在低编码速率的情况下,保持较高的语音音质。

    基于残差信号频谱重构的声码器

    公开(公告)号:CN102750955B

    公开(公告)日:2014-06-18

    申请号:CN201210253946.X

    申请日:2012-07-20

    Inventor: 陶建华 温正棋

    Abstract: 本发明提供了一种基于残差信号频谱重构的声码器,包括:参数提取模块,用于接收待分析的语音数据、计算基频参数和频谱参数;逆滤波模块,用于根据频谱参数设计逆滤波器对语音数据逆滤波,获得残差信号;周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成周期激励信号;非周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成非周期激励信号;以及参数语音合成器模块,与周期信号支路和非周期信号支路相连接,用于根据周期频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。本发明对逆滤波后的残差信号进行建模,使激励信号具有较高的准确性,提高了合成语音的音质。

    发音器官的网格动画生成方法

    公开(公告)号:CN103700130A

    公开(公告)日:2014-04-02

    申请号:CN201310746136.2

    申请日:2013-12-30

    Abstract: 本发明提供了一种发音器官动画生成方法,包括:发音器官运动关键点的定义,各发音器官的中矢状面的二维网格的生成,发音器官纹理贴图,基于薄板样条的网格运动计算。本发明由发音器官运动关键点的位置,推算出发音器官中矢状面的形状,进而可以由发音器官运动关键点的运动,直接得到整个发音器官在中矢状面的运动情况,其优势在于简化的发音器官运动的描述参数,降低了发音器官动画制作的难度。

Patent Agency Ranking