-
公开(公告)号:CN110070874B
公开(公告)日:2021-07-30
申请号:CN201810065088.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02 , G10L17/10 , G10L21/0208
Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
-
公开(公告)号:CN106847259B
公开(公告)日:2020-04-03
申请号:CN201510882805.8
申请日:2015-12-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
-
公开(公告)号:CN103021407B
公开(公告)日:2015-07-08
申请号:CN201210551676.0
申请日:2012-12-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明实施例涉及韩语语音识别方法及系统。所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
-
公开(公告)号:CN113095113B
公开(公告)日:2024-04-09
申请号:CN201911342527.1
申请日:2019-12-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G06F18/00 , G06F18/10 , G06F18/213 , G06F18/24 , G06N3/049
Abstract: 本发明属于水下目标识别和信号处理技术领域,具体涉及一种基于小波线谱特征提取的水下目标识别方法,该方法包括:对声呐阵列接收的信号进行频谱分析,获得各个频段内的频谱信息;基于获得的每个频段内的频谱信息,提取单个频段内线谱特征的最大值,作为当前频段的特征向量,获得各个频段的特征向量;将各个频段的特征向量进行拼接或平均,获得优化后的特征向量;将当前频段的特征向量和优化后的特征向量一起作为新的特征向量,并将该新的特征向量输入至预先训练的时延神经网络,输出当前频段对应的目标类别信息,作为分类结果。
-
公开(公告)号:CN111352075B
公开(公告)日:2022-01-25
申请号:CN201811564007.0
申请日:2018-12-20
Applicant: 中国科学院声学研究所
IPC: G01S5/22
Abstract: 本发明公开了一种基于深度学习的水下多声源定位方法及系统,所述方法包括:通过水听器阵列接收待检测的信号,估计声源的方位;在可能存在声源的方位上做子阵波束形成,然后计算待检测信号的空间相关矩阵,形成特征向量,输入到预先训练的时延神经网络,输出声源的距离。本发明的水下多声源定位方法,可以不依赖环境参数的先验知识;利用子阵波束形成的方法在特征层面将多个声源区分开,从而实现对水下多个目标同时定位。
-
公开(公告)号:CN112489622A
公开(公告)日:2021-03-12
申请号:CN201910782981.2
申请日:2019-08-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。
-
公开(公告)号:CN112257484A
公开(公告)日:2021-01-22
申请号:CN201910661146.3
申请日:2019-07-22
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种基于深度学习的多声源测向方法及系统,所述方法包括:将阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换,得到傅里叶变换后的信号;将傅里叶变换后的信号输入深度神经网络,使用反向传播方法训练深度神经网络,直至深度神经网络收敛;从收敛后的深度神经网络输出的后验概率中找到峰值对应的方位,该方位为声源出现的方位。本发明的方法利用了深度神经网络,通过优化准则函数,寻找声源波达方向的最优解,该方法直接从阵列接受的信号得到目标的方位,实现了简单而高效的多声源测向。
-
公开(公告)号:CN111352075A
公开(公告)日:2020-06-30
申请号:CN201811564007.0
申请日:2018-12-20
Applicant: 中国科学院声学研究所
IPC: G01S5/22
Abstract: 本发明公开了一种基于深度学习的水下多声源定位方法及系统,所述方法包括:通过水听器阵列接收待检测的信号,估计声源的方位;在可能存在声源的方位上做子阵波束形成,然后计算待检测信号的空间相关矩阵,形成特征向量,输入到预先训练的时延神经网络,输出声源的距离。本发明的水下多声源定位方法,可以不依赖环境参数的先验知识;利用子阵波束形成的方法在特征层面将多个声源区分开,从而实现对水下多个目标同时定位。
-
公开(公告)号:CN104575497B
公开(公告)日:2017-10-03
申请号:CN201310517149.2
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/183
Abstract: 本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。
-
公开(公告)号:CN104575497A
公开(公告)日:2015-04-29
申请号:CN201310517149.2
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/183
Abstract: 本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。
-
-
-
-
-
-
-
-
-