-
公开(公告)号:CN107451115B
公开(公告)日:2020-03-06
申请号:CN201710562102.6
申请日:2017-07-11
Applicant: 中国科学院自动化研究所
IPC: G06F40/205 , G06F40/284 , G06K9/62 , G06N3/04
Abstract: 本发明涉及一种端到端的汉语韵律层级结构预测模型的构建方法及系统,所述构建方法包括:根据多个裸文本得到字嵌入embedding层的字向量序列;基于长短时间记忆BLSTM神经网络和条件随机场CRF分类器,根据所述字向量序列,构建汉语韵律层级结构的预测模型,用于预测待处理文本的汉语韵律层级结构。本发明端到端的汉语韵律层级结构预测模型的构建方法及系统将字embedding层、BLSTM神经网络及CRF分类器串联在一起,根据字embedding层的字向量序列,基于BLSTM神经网络及CRF分类器得到汉语韵律层级结构的预测模型,实现对待处理文本的准确预测。
-
公开(公告)号:CN106601226B
公开(公告)日:2020-02-28
申请号:CN201611027187.X
申请日:2016-11-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种对音素时长进行建模和预测的方法,利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质。利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度。
-
公开(公告)号:CN110335588A
公开(公告)日:2019-10-15
申请号:CN201910563533.3
申请日:2019-06-26
Applicant: 中国科学院自动化研究所
IPC: G10L13/08 , G10L13/047 , G10L25/30 , G10L25/03
Abstract: 本发明涉及一种多发音人语音合成方法及系统,所述合成方法包括:从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;基于文本分析方法,从待测文本中提取文本特征;将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。本发明将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,从而可提高对对发音人发音特征的精细描述;进一步通过基于神经网络的声码器,合成语音,从而可有效提供语音合成的准确性。
-
公开(公告)号:CN106227721B
公开(公告)日:2019-02-01
申请号:CN201610642956.0
申请日:2016-08-08
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明公开了一种汉语韵律层级结构预测系统。其中,该系统包括:文本分析模块输出分析完成的文本数据;文本特征参数化模块输出参数化的文本特征;字词向量联合训练模块接收所述文本分析模块生成的所述分析完成的文本数据,输出文本的用字向量进行增强的词向量表示模型;词向量生成模块利用用字向量进行增强的词向量表示模型,输出分析完成文本数据的字向量增强的词向量;第一单分类器训练模块输出第一映射模型;第二单分类器训练模块输出第二映射模型;特征重要性排序模块输出具有预定分类性能的文本参数特征;模型融合模块输出所述韵律层级结构预测的结果。通过本发明实施例提高了韵律结构层级预测的准确性。
-
公开(公告)号:CN106412793B
公开(公告)日:2018-06-12
申请号:CN201610802607.0
申请日:2016-09-05
Applicant: 中国科学院自动化研究所
IPC: H04S7/00
Abstract: 本发明公开了一种基于球谐函数的头相关传输函数的稀疏建模方法和系统。其中,该方法包括:对待测量的头相关传输函数进行处理,生成最小相位头相关传输函数,并去除全测量方向的最小相位幅度均值,得到空间差异性最小相位头相关传输函数;对空间差异性最小相位头相关传输函数进行建模,得到稀疏球谐系数;通过稀疏球谐系数插值,并根据空间的方位生成全空间的连续头相关传输函数。由此,降低了全空间连续HRTF的插值谱失真程度,降低了计算复杂度,所需要的存储量小,便于应用到实际虚拟现实系统中进行动态环境绘制,不受个体个性的限制,具有高鲁棒性,便于在实际环境中的应用。
-
公开(公告)号:CN107464559A
公开(公告)日:2017-12-12
申请号:CN201710561567.X
申请日:2017-07-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于汉语韵律结构和重音的联合的预测模型构建方法及系统,所述构建方法包括:对多个历史语料文本训练语料进行预处理,得到预处理文本;对预处理文本进行分词处理,得到分词文本信息;根据分词文本信息确定对应文本的词向量特征序列;基于注意力机制的RNN的编码-解码,对所述词向量特征序列进行编码、解码处理,建立基于汉语韵律结构和重音的联合预测模型,用于预测待处理文本的韵律结构和重音。本发明通过对多个历史语料文本训练语料进行预处理、分词处理获得分词文本信息,得到对应文本的词向量特征序列,进而基于注意力机制的RNN的编码-解码,建立联合预测模型,充分考虑汉语韵律结构与重音的关系,实现对待测文本的准确预测。
-
公开(公告)号:CN103700130B
公开(公告)日:2017-01-25
申请号:CN201310746136.2
申请日:2013-12-30
Applicant: 中国科学院自动化研究所
IPC: G06T13/80
Abstract: 本发明提供了一种发音器官动画生成方法,包括:发音器官运动关键点的定义,各发音器官的中矢状面的二维网格的生成,发音器官纹理贴图,基于薄板样条的网格运动计算。本发明由发音器官运动关键点的位置,推算出发音器官中矢状面的形状,进而可以由发音器官运动关键点的运动,直接得到整个发音器官在中矢状面的运动情况,其优势在于简化的发音器官运动的描述参数,降低了发音器官动画制作的难度。
-
公开(公告)号:CN103247293B
公开(公告)日:2015-04-08
申请号:CN201310176701.6
申请日:2013-05-14
Applicant: 中国科学院自动化研究所
IPC: G10L19/032 , G10L19/083 , G10L25/93 , G10L25/87 , G10L15/06
Abstract: 本发明提供了一种语音数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据提取谱参数、基音周期等参数,并计算连续多帧语音数据的增益均值,通过矢量码本对谱参数进行矢量量化,对基音周期和增益均值进行非线性量化;对量化后的各种语音参数进行编码,生成语音数据包。该解码方法包括:对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值等参数,通过上述参数对激励参数和能量变化轨迹进行预测,最后通过声码器合成语音。本发明可以在极低编码速率的情况下,保持较高的语音音质。
-
公开(公告)号:CN103577828A
公开(公告)日:2014-02-12
申请号:CN201310597554.X
申请日:2013-11-22
Applicant: 中国科学院自动化研究所
IPC: G06K9/46
Abstract: 本发明公开了一种基于边缘特征分析的自动道路检测方法,该方法包括:对于目标图像,采用边缘梯度算子计算得到多幅梯度图像,对其进行二值化处理,得到多幅初步道路边缘图像;基于自动获取的阈值将多幅初步道路边缘图像中像素个数小于该阈值的连通区域去除,获得多个方向上的道路边缘图像;将多个方向的道路边缘图像中的道路边缘信息整合到同一幅图像中,并根据道路两侧具有相似边缘的原理夹逼出道路像素区域,得到初步道路图像;采用基于线段拟合的生长算法进行道路区域间的连接,并根据道路区域的长宽比去除一些非道路区域,最终获得检测得到的道路。本发明适用于航拍图像的自动道路检测,具有检测精度高、实时性好、抗干扰性强等优点。
-
公开(公告)号:CN102222501B
公开(公告)日:2012-11-07
申请号:CN201110160419.X
申请日:2011-06-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种语音合成中时长参数的生成方法,用于基于隐马尔可夫模型的语音合成中进行状态时长参数的生成,对于输入的上下文相关隐马尔可夫模型序列生成各模型的各个状态的时长,即各状态的驻留时间,在生成状态时长参数时结合了隐马尔可夫模型中的状态时长模型和时长整体方差模型。创建时长整体方差模型训练语料库,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本,利用整体方差训练样本训练时长整体方差模型。本发明较好的克服了基于隐马尔可夫模型的语音合成中生成的状态时长参数过于平均的问题,合成结果在时长分布上更加自然、具有表现力。
-
-
-
-
-
-
-
-
-