-
公开(公告)号:CN106405501B
公开(公告)日:2019-05-17
申请号:CN201510456996.1
申请日:2015-07-29
Applicant: 中国科学院声学研究所
IPC: G01S5/22
Abstract: 本发明涉及一种基于相位差回归的单声源定位方法,包括:将通过麦克风阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行预处理,然后提取麦克风阵列中每个麦克风的数字声音信号的频谱;利用相邻时间相同频点上所有麦克风的数字声音信号的频谱计算t时刻每个频点的空间相关矩阵;对t时刻每个频点上的空间相关矩阵进行分解,得到t时刻每个频点上的主特征向量;利用t时刻每个频点上的主特征向量求取t时刻每个频点上M对麦克风的相位差集合;采用迭代的方法,对相位差进行回归得到t时刻声源的入射方向角。
-
公开(公告)号:CN109584903A
公开(公告)日:2019-04-05
申请号:CN201811641471.5
申请日:2018-12-29
Applicant: 中国科学院声学研究所
IPC: G10L25/18 , G10L25/30 , G10L25/45 , G10L21/0272
Abstract: 本发明公开了一种基于深度学习的多人语音分离方法。包括:对传声器得到的多说话人混合语音信号进行分帧、加窗、傅里叶变换,得到混合信号的频谱;将混合语音信号的频谱幅度送入神经网络,对各目标信号的理想幅度掩蔽进行估计;利用估计出的各信号的理想幅度掩蔽及混合信号的频谱幅度和频谱相位,采用迭代的方法恢复出各目标信号的相位;利用恢复后各目标信号的相位,计算出各目标信号的相敏掩蔽,训练神经网络对其进行估计;利用神经网络估计的相敏掩蔽得到目标信号的频谱幅度,进而结合恢复的相位对各目标信号的频谱进行重建;将重建后的各信号频谱进行逆傅里叶变换,得到分离后的时域语音信号。本发明提供的方法能有效提高说话人语音分离效果。
-
公开(公告)号:CN105261367B
公开(公告)日:2019-03-15
申请号:CN201410334124.3
申请日:2014-07-14
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02
Abstract: 本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型,局部线性鉴别分析模型;利用第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。
-
公开(公告)号:CN108574911A
公开(公告)日:2018-09-25
申请号:CN201710137778.0
申请日:2017-03-09
Applicant: 中国科学院声学研究所
IPC: H04R3/04
Abstract: 本发明公开了一种无监督单传声器语音降噪方法,所述方法包括:步骤1)对采集的覆盖所有音素的语音训练数据的进行频谱提取,然后对幅度谱进行k均值聚类,得到每个类别对应的语音字典;然后将所有不同类别的语音字典组合成一个完备的语音字典WS;步骤2)对当前时刻到达的带噪信号进行短时傅里叶变换得到当前帧幅度谱xt,再和前L帧已经处理过的幅度谱结合作为输出语音谱X=[xt-L,...,xt-1,xt],将前一帧估计得到的噪声矩阵WN和语音字典WS结合为总的字典矩阵W=[WS WN],采用迭代的算法对输出语音谱X进行非负矩阵分解,得到噪声矩阵和当前帧对应的语音噪声权重向量 步骤3)通过估计得到的噪声矩阵 和噪声权重向量 重构出降噪后的当前帧语音信号。
-
公开(公告)号:CN108573698A
公开(公告)日:2018-09-25
申请号:CN201710139644.2
申请日:2017-03-09
Applicant: 中国科学院声学研究所
IPC: G10L15/20
Abstract: 本发明公开了一种基于性别融合信息的语音降噪方法,所述方法包括:步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;步骤2)提取测试语音的频谱,确定测试语音说话人的性别;步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN-NMF模型,得到降噪后的语音。本发明的方法将引入性别信息,提出了一种新的性别鉴定算法,并且针对不同性别的训练训练语音训练不同的DNN-NMF模型,提高的模型的学习能力;而且模型结合DNN和NMF的优点,能够同时利用DNN的学习优势以及NMF对于语音频谱的描述能力,提高了降噪效果。
-
公开(公告)号:CN108113646A
公开(公告)日:2018-06-05
申请号:CN201611063316.0
申请日:2016-11-28
Applicant: 中国科学院声学研究所
IPC: A61B5/00
CPC classification number: A61B5/7203 , A61B5/7225
Abstract: 本发明公开了一种心音信号周期的检测与心音的状态分割方法,该方法包括下列步骤:步骤1)对于一段时长的心音信号,加窗截取若干段长度为L的信号;对任一段信号Y,进行自相关分析,得到心音信号的一个心动周期长度N;据此进行整周期的心音信号切分,得到k段信号;步骤2)对k段整周期心音信号进行主成分分析,得到经典心音周期信号x;步骤3)对经典心音周期信号x进行分帧处理,提取能量包络,采取极大似然估计算法建立二元隐马尔可夫模型,得到各帧所属状态,并据此得到4个状态的分割点。本发明的方法能够准确划分心音信号的状态,增强心音分析应用系统对噪声环境的适应性。
-
公开(公告)号:CN107688576A
公开(公告)日:2018-02-13
申请号:CN201610633439.7
申请日:2016-08-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: G06F16/35 , G06K9/6269 , G06K9/6273 , G06N3/0454 , G06N3/08
Abstract: 本发明公开了一种CNN-SVM模型的构建方法,所述方法包括:从社交媒体上抓取基于某一事件的所有评论和转发信息,构建训练样本集;建立包含卷积层、采样层和分类层的CNN模型,利用训练样本集训练CNN模型的各层参数;将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN-SVM模型;将训练样本集输入CNN-SVM模型,训练SVM分类器的参数;所述CNN-SVM模型构建完成。基于CNN-SVM模型,本发明还提供了一种倾向性分类方法,并构建转发树,能够对含有转发文本的待分类评论进行准确分类。本发明的倾向性分类方法可以提高分类的正确率。
-
公开(公告)号:CN104575497B
公开(公告)日:2017-10-03
申请号:CN201310517149.2
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/183
Abstract: 本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。
-
公开(公告)号:CN106959967A
公开(公告)日:2017-07-18
申请号:CN201610018320.9
申请日:2016-01-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G06F17/30 , H04L12/24 , H04L12/751
Abstract: 本发明提供了一种链路预测模型的训练方法,所述方法包括:步骤S1)对抓取网络数据进行预处理,将预处理后的网络数据提取训练集;步骤S2)对训练集构造的网络进行特征提取,将提取的特征组成特征集;所述特征包括:基于邻居的特征和基于网络游走的特征;步骤S3)对所述特征集用梯度迭代树模型进行特征转换,得到新的多维特征集;步骤S4)将特征集和新的多维特征集进行融合输入链路预测模型,训练得到所述链路预测模型的参数,从而得到训练完毕的链路预测模型。本发明的方法只需要从现有的特征集入手就能扩展特征集的数量;不需要再从网络中提取新的特征,极大地减少了特征提取难度;而且提升了模型的预测性能和鲁棒性。
-
公开(公告)号:CN106847267A
公开(公告)日:2017-06-13
申请号:CN201510885336.5
申请日:2015-12-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101-1)对语音流进行端点检测,去除静音段;步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。
-
-
-
-
-
-
-
-
-