-
-
公开(公告)号:CN108922514A
公开(公告)日:2018-11-30
申请号:CN201811091401.7
申请日:2018-09-19
Applicant: 河海大学
Inventor: 吕勇
Abstract: 本发明公开一种基于低频对数谱的鲁棒特征提取方法,用语音信号的对数谱轮廓提取其特征参数。首先,对语音信号的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换,并进行时域差分,得到语音信号的特征参数。本发明可以提高语音信号特征参数的环境鲁棒性,减小说话人的改变对语音识别系统的影响,具有计算量较小、易于实时实现的优点。
-
公开(公告)号:CN108877784A
公开(公告)日:2018-11-23
申请号:CN201811030962.6
申请日:2018-09-05
Applicant: 河海大学
Inventor: 吕勇
IPC: G10L15/14
Abstract: 本发明公开一种基于口音识别的鲁棒语音识别方法,用多类口音的声学模型预测目标说话人的口音特性。在训练阶段,将发音特性相近的口音合并为一类,为每类口音训练生成一个高斯混合模型和一组隐马尔可夫模型;在测试阶段,首先从目标说话人的测试语音中提取共振峰;然后根据共振峰特征,对说话人的口音进行识别,并根据识别结果选取该类口音对应的声学模型,对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配;最后,用自适应后的声学模型对测试语音特征向量进行识别,得到识别结果。本发明可以减小口音对语音识别系统的影响,提高口音改变条件下模型自适应的准确性。
-
公开(公告)号:CN107910008A
公开(公告)日:2018-04-13
申请号:CN201711112751.2
申请日:2017-11-13
Applicant: 河海大学
Inventor: 吕勇
CPC classification number: G10L17/16 , G10L15/144 , G10L17/04
Abstract: 本发明公开了一种用于个人设备的基于多声学模型的语音识别方法,为个人设备的每个用户都预配置一个声学模型,这些声学模型在训练阶段都初始化为各个语音单元的SI HMM(Speaker Independent Hidden Markov Model);在测试阶段,通过说话人识别确定当前用户,选择其声学模型进行声学解码,并根据已识别的带标注的输入语音,调整该用户声学模型的参数。本发明可以为个人设备的语音识别模块自动添加说话人模型及其声学模型,增强语音识别系统在不同用户之间切换的环境自适应能力。
-
公开(公告)号:CN104392719B
公开(公告)日:2017-09-19
申请号:CN201410695733.1
申请日:2014-11-26
Applicant: 河海大学
Inventor: 吕勇
IPC: G10L15/26
Abstract: 本发明公开一种用于语音识别系统的中心子带模型自适应方法,通过Mel滤波器组的每个通道与其相邻的通道共享自适应数据,进一步增加参数估计的数据量,解决数据稀疏问题;同时,每个Mel通道保留各自的环境变换关系,以每个Mel通道为中心通道,与其前后各若干个Mel通道共享自适应数据,估计变换参数,估得的变换参数仅用于当前中心Mel通道。在参数估计中,将Mel滤波器组全部通道的环境变换关系划分为Nm类,每一类的变换参数通过对Mel滤波器组通道的一次子带划分及其子带自适应得到。本发明可以提高非平稳环境下自适应数据稀疏时语音识别系统的性能,提高系统的鲁棒性。
-
公开(公告)号:CN103000174B
公开(公告)日:2015-06-24
申请号:CN201210486936.0
申请日:2012-11-26
Applicant: 河海大学
Inventor: 吕勇
Abstract: 本发明公开一种语音识别系统中基于快速噪声估计的特征补偿方法,其主要特点是将特征补偿中的噪声参数估计和纯净语音估计分离开来,噪声估计和纯净语音估计用不同的高斯混合模型实现。一个含有较少高斯单元的高斯混合模型GMM用于从含噪测试语音中提取噪声参数;另一个含有较多高斯单元的高斯混合模型GMM用于与估得的单高斯噪声模型进行模型组合,得到与当前测试环境匹配的含噪GMM;最后用含噪GMM计算含噪测试语音的后验概率,用最小均方误差方法从含噪测试语音中估计纯净语音特征向量。本发明可以在减小计算量的同时,保证纯净语音估计的精度。
-
-
公开(公告)号:CN104464728A
公开(公告)日:2015-03-25
申请号:CN201410704574.7
申请日:2014-11-26
Applicant: 河海大学
Inventor: 吕勇
IPC: G10L15/20 , G10L21/0216
Abstract: 本发明公开一种基于高斯混合模型(GMM:Gaussian Mixture Model)噪声估计的语音增强方法,用GMM估计背景噪声和谱减系数,对含噪语音进行谱减,恢复纯净语音。首先,含噪语音经过预处理得到含噪语音的幅度和相位,幅度用于噪声估计和谱减,相位用于恢复时域信号;然后利用GMM从含噪语音中实时估计噪声参数和纯净语音倒谱特征,并根据估得的纯净语音倒谱特征计算谱减系数;最后,对含噪语音的频谱进行谱减,恢复时域信号,并用重叠相加法得到增强后的语音。本发明可以显著提高语音增强算法对非平稳噪声的跟踪能力。
-
公开(公告)号:CN104392719A
公开(公告)日:2015-03-04
申请号:CN201410695733.1
申请日:2014-11-26
Applicant: 河海大学
Inventor: 吕勇
IPC: G10L15/26
Abstract: 本发明公开一种用于语音识别系统的中心子带模型自适应方法,通过Mel滤波器组的每个通道与其相邻的通道共享自适应数据,进一步增加参数估计的数据量,解决数据稀疏问题;同时,每个Mel通道保留各自的环境变换关系,以每个Mel通道为中心通道,与其前后各若干个Mel通道共享自适应数据,估计变换参数,估得的变换参数仅用于当前中心Mel通道。在参数估计中,将Mel滤波器组全部通道的环境变换关系划分为Nm类,每一类的变换参数通过对Mel滤波器组通道的一次子带划分及其子带自适应得到。本发明可以提高非平稳环境下自适应数据稀疏时语音识别系统的性能,提高系统的鲁棒性。
-
公开(公告)号:CN104168484A
公开(公告)日:2014-11-26
申请号:CN201410407187.7
申请日:2014-08-19
Applicant: 河海大学
IPC: H04N19/467 , H04N21/8358
Abstract: 本发明公开一种基于视觉注意机制的视频水印方法,选择MPEG-2视频关键帧的视觉非显著区域的DCT域嵌入二进制水印信息,实现视频版权保护的目的。本发明包括以下步骤:解码载体视频,获取视频关键帧I帧;采用Koch and Itti视觉显著模型分析视频关键帧的视觉显著性,划分视觉显著区域;选择人眼不太敏感的视觉非显著区域,对亮度分量的DCT直流系数进行固定步长的奇偶量化索引调制,嵌入水印信息。分析已嵌入水印的视频关键帧的视觉显著性,判断水印嵌入区域,根据水印嵌入规则提取水印信息。本发明有效利用了人眼视觉注意特性,提高了视频水印的不可见性,且对常见的视频攻击有较好的鲁棒性,有效缓解了水印不可见性与鲁棒性之间的矛盾。
-
-
-
-
-
-
-
-
-