-
公开(公告)号:CN109145360B
公开(公告)日:2020-08-04
申请号:CN201810697788.4
申请日:2018-06-29
Applicant: 中国科学院自动化研究所
IPC: G06F30/20 , G06F111/10
Abstract: 本发明属于信号处理技术领域,具体涉及一种基于稀疏约束的头相关传输函数个性化建模系统,旨在解决如何得到更为准确的个性化头相关传输函数的问题。为此目的,本发明中的头相关传输函数个性化建模系统包括稀疏建模模块、权值映射模块和头相关传输函数生成模块;稀疏建模模块配置为根据预先获取的人体生理参数数据和HRTF数据分别构建相应的第一非负稀疏模型和第二非负稀疏模型;权值映射模块配置为获取第一非负稀疏模型和第二非负稀疏模型之间的模型权重映射关系;头相关传输函数生成模块配置为基于目标对象的生理参数和权重映射关系合成目标对象的头相关传输函数。基于本发明的系统可以通过目标对象的生理参数得到个性化的HRTF的更准确估计。
-
公开(公告)号:CN110689879A
公开(公告)日:2020-01-14
申请号:CN201910958727.3
申请日:2019-10-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子信号处理技术领域,具体涉及一种端到端语音转写模型的训练方法、系统、装置,旨在解决端到端语音转写模型无法很好的学习语音数据的对齐信息的问题。本系统方法包括提取语音训练数据的特征,得到语音特征序列;通过GMM-HMM模型对语音特征序列进行强制对齐,得到对齐标注,并对各帧语音特征进行拼接;基于拼接后的语音特征序列和文本标注训练数据,对端到端语音转写模型进行训练,得到预设词表中每个词的概率分布及负对数损失值;获取对齐损失值;将对齐损失值和负对数损失值进行加权平均,得到联合损失值,并通过后向传播算法更新模型的参数;迭代训练模型。本发明能够准确的学习语音数据的对齐信息。
-
公开(公告)号:CN105469065B
公开(公告)日:2019-04-23
申请号:CN201510889388.X
申请日:2015-12-07
Applicant: 中国科学院自动化研究所
Abstract: 本发明提出的一种基于递归神经网络的离散情感识别方法,步骤为:1、对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点作为人脸的形变特征;将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;2、对视频中的音频信号进行加窗处理,分割出音频序列单元并提取音频特征;3、利用具有长短时记忆模型的递归神经网络分别对上述得到的三项特征进行时序编码,获得固定长度的情感表征向量;并将其相串联,得到最终情感表述特征;4、基于的支持向量机分类器,利用3中得到的最终情感表述特征进行情感类别预测。该方法能够充分利用情感表达过程中的动态信息,从而实现视频中参与者情感的精确识别。
-
公开(公告)号:CN109145360A
公开(公告)日:2019-01-04
申请号:CN201810697788.4
申请日:2018-06-29
Applicant: 中国科学院自动化研究所
IPC: G06F17/50
Abstract: 本发明属于信号处理技术领域,具体涉及一种基于稀疏约束的头相关传输函数个性化建模系统,旨在解决如何得到更为准确的个性化头相关传输函数的问题。为此目的,本发明中的头相关传输函数个性化建模系统包括稀疏建模模块、权值映射模块和头相关传输函数生成模块;稀疏建模模块配置为根据预先获取的人体生理参数数据和HRTF数据分别构建相应的第一非负稀疏模型和第二非负稀疏模型;权值映射模块配置为获取第一非负稀疏模型和第二非负稀疏模型之间的模型权重映射关系;头相关传输函数生成模块配置为基于目标对象的生理参数和权重映射关系合成目标对象的头相关传输函数。基于本发明的系统可以通过目标对象的生理参数得到个性化的HRTF的更准确估计。
-
公开(公告)号:CN108682417A
公开(公告)日:2018-10-19
申请号:CN201810455011.7
申请日:2018-05-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。
-
公开(公告)号:CN108364662A
公开(公告)日:2018-08-03
申请号:CN201711481953.4
申请日:2017-12-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语音情感识别领域,具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。目的在于解决情感标签的模糊性问题。本发明的语音情感识别系统,在训练过程中,将语音数据随机配对;然后提取语谱图特征并利用第一音向量提取模型生成成对音向量;再利用判别网络模型计算成对音频训练数据属于同一情感类别的概率;计算损失函数时,同时考虑成对音向量之间的余弦相似性损失,以及判别网络模型的输出值和预设标签之间的交叉熵。对于待识别语音,先提取语谱图特征,再用训练好的第一音向量提取模型生成音向量,最后用训练好的支持向量机进行情感分类。本发明通过成对鉴别任务训练语音情感模型,提升了基于语音的情感识别系统的性能。
-
公开(公告)号:CN106531157A
公开(公告)日:2017-03-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN103531207B
公开(公告)日:2016-07-27
申请号:CN201310481318.1
申请日:2013-10-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种融合长跨度情感历史的语音情感识别方法。该方法包括以下步骤:利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别语音段数据;将待识别语音段数据切分为独立的语音段数据单元;利用第一支持向量机对语音段数据单元分别进行情感状态初步分类;对情感状态初步分类结果进行加窗,并利用第二支持向量机进行融合,得到融合长跨度情感历史的情感识别结果。本发明在保证对语音信号的局部单元进行高精度分类的同时,又充分利用信号序列的长跨度内的上下文信息,以达到对序列中的每一单元达到最优的分类结果。本发明能够用于语音信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。
-
公开(公告)号:CN102820030B
公开(公告)日:2014-03-26
申请号:CN201210265448.7
申请日:2012-07-27
Applicant: 中国科学院自动化研究所
IPC: G10L13/00
Abstract: 本发明提供了一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、动画驱动模块和运动分析模块,其中:音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;动画驱动模块,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。本发明直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受在线数据库的限制和生理模型的限制优点。
-
公开(公告)号:CN103531196A
公开(公告)日:2014-01-22
申请号:CN201310481306.9
申请日:2013-10-15
Applicant: 中国科学院自动化研究所
IPC: G10L13/02
Abstract: 本发明公开了一种波形拼接语音合成的选音方法,该方法包括以下步骤:基于原始音频进行基于隐马尔可夫的模型训练,得到声学模型集及对应的特征决策树;输入若干训练文本,基于特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目标音节;根据目标语音与其对应的候选基元的相似度,和候选基元的各声学参数在当前声学模型下的似然概率,训练得到相似度分类器;输入任意待合成文本,基于相似度分类器剔除不相似的候选基元,对于剩余的候选基元,利用拼接代价最小原则选择得到最佳基元,并拼接得到合成语音。采用本发明方法可以合成出较高音质的语音。
-
-
-
-
-
-
-
-
-