-
公开(公告)号:CN102254554B
公开(公告)日:2012-08-08
申请号:CN201110200330.1
申请日:2011-07-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括:选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。利用本发明,提高了重音模型的精细度,同时也保证了较高的重音预测正确率和召回率,进而提高合成语音的自然度和表现力,能够以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。
-
公开(公告)号:CN101051458B
公开(公告)日:2011-02-09
申请号:CN200610073102.1
申请日:2006-04-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于组块分析的韵律短语预测方法,用于语音合成系统韵律短语的预测,将系统接收或输入的任意文字串转换成带有韵律短语停顿标注的文字形式,将组块作为韵律短语预测的基本单元,训练生成组块合并模型;训练生成韵律短语边界必停点的预测模型;训练生成韵律短语的节律平衡模型;基于组块合并模型、韵律短语必停点的预测模型、长度约束模型执行生成韵律短语。创建韵律短语标注语料库,用组块从文本生成组块,利用韵律短语语料库估计组块合并模型、训练支持向量机识别器,得到韵律短语的必停点的预测器,利用韵律短语语料库训练节律平衡模型。本发明提高了韵律短语边界预测的准确率和召回率,使得合成结果保持较好的自然度和可懂度。
-
公开(公告)号:CN101930619A
公开(公告)日:2010-12-29
申请号:CN201010263097.7
申请日:2010-08-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明是基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,通过实时录入语音,使得人物头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块,该模块对采集到的语音和人脸三维特征点运动信息分别进行Mel频率倒谱参数编码和“动态图像专家组”(MPEG-4)标准中的人脸动画参数编码,由音视频编码模块得到Mel频率倒谱参数和人脸动画参数多模态同步库;协同过滤模块使用协同过滤算法,由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数;动画模块由人脸动画参数驱动人脸模型进行动画。本发明系统有较好的真实感,实时性以及更广泛的应用环境。
-
公开(公告)号:CN101471071A
公开(公告)日:2009-07-01
申请号:CN200710304225.6
申请日:2007-12-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明基于混合隐马尔可夫模型的语音合成系统,有频谱信息生成模块接收任意文本信息,根据指标来选取表征频谱信息的码本矢量并输出频谱信息;基频信息生成模块接收文本信息,负责预测待合成句子的音高变化,输出基频曲线;参数语音合成器模块接收频谱信息生成模块的频谱信息和基频信息生成模块的基频信息,输出合成的语音结果;离线训练模块负责各种隐马尔可夫模型的训练,离散隐马尔可夫模型得到真实频谱矢量的输出概率,保证频谱信息的准确度;码本选择算法保证生成的频谱不会产生时域过平滑现象。依据本发明提高参数语音合成系统输出语音的清晰度,从而使得输出语音的保真度得到大幅提高,几乎接近基于拼接语音合成系统的语音质量。
-
公开(公告)号:CN1952850A
公开(公告)日:2007-04-25
申请号:CN200510086646.7
申请日:2005-10-20
Applicant: 中国科学院自动化研究所
IPC: G06F3/00
Abstract: 本发明公开了一种基于动态基元选取的语音驱动人脸动画方法,将输入的任何用户的任何语言的语音转换成语音和三维人脸动画的同步输出。此方法基于采用运动实时捕获系统建立的多模态数据库,对多模态数据进行音视频分析,分别获得相应的特征向量;以音素为基元单位对多模态数据进行同步分割;对用户给定的语音序列,计算每个基元的音频匹配误差和前后基元间的视觉匹配误差,最后在候选的基元中动态地选择一条最佳路径,输出与语音序列同步的人脸动画参数序列,以驱动三维人脸动画模型。本发明的方法,使得系统输出的动画序列保持较好的真实度和自然度,并适用于多用户和多语言的语音驱动。
-
-
-
-