-
公开(公告)号:CN104916289A
公开(公告)日:2015-09-16
申请号:CN201510324584.2
申请日:2015-06-12
Applicant: 哈尔滨工业大学
IPC: G10L21/0232 , G10L25/24 , G10L25/21 , G10L15/07
Abstract: 行车噪声环境下快速声学事件的检测方法,属于无人车声学事件检测领域。为了解决现有无人车无法感知声音的问题。所述方法包括:在训练阶段,将各种目标声学事件的音频信号和行车噪声信号作为训练数据,利用音频信号为每个目标声学事件建立SVM模型,利用行车噪声信号获得的能量训练BPNN噪声模型;在识别阶段,对行车噪声环境下实时采集的待检测目标声学事件的音频信号进行过滤,再利用BPNN噪声模型降噪和增强,然后提取MFCC系数,根据MFCC系数,采用SVM模型分类识别,确定待检测目标声学事件的类别;进而确定相应的笛语序列编码,根据笛语序列编码,对当前的鸣笛序列库进行检索,确定对应的笛语信息。本发明用于无人车中。
-
公开(公告)号:CN102509545A
公开(公告)日:2012-06-20
申请号:CN201110280525.1
申请日:2011-09-21
Applicant: 哈尔滨工业大学
Abstract: 一种实时声学事件检测系统及检测方法,涉及一种声学事件检测系统及其方法。它解决了现有的声学事件检测系统的实时性差的问题。其音频波形实时显示模块以及音频内容分析结果实时显示模块,负责实时提供检测结果以及波形可视化效果;音频特征实时提取模块,负责提取音频特征,并传送给音频内容实时分析模块;目标声学事件模型训练模块,负责训练识别目标声学事件的模型;目标声学事件模型加载模块,负责加载目标声学事件的模型;音频内容实时分析模块,负责对音频信号内容进行分析理解。本发明的技术方案能满足通用声学事件检测的实时处理要求。本发明适用于用户指定的任意有足够辨识度的声学事件进行检测。
-
公开(公告)号:CN102290047A
公开(公告)日:2011-12-21
申请号:CN201110283908.4
申请日:2011-09-22
Applicant: 哈尔滨工业大学
IPC: G10L15/02
Abstract: 基于稀疏分解与重构的鲁棒语音特征提取方法,涉及稀疏分解与重构的语音特征提取方法,解决了1、原子字典的选取:具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解:考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构:忽略了原子的先验概率以及各个原子相互转换的概率的问题,它包括具体步骤如下:步骤一、预处理;步骤二、作离散傅立叶变换,并求功率谱;步骤三、原子字典训练,保存;步骤四、稀疏分解;步骤五、语音谱重构;步骤六、加梅尔三角滤波器并取对数;步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接,形成鲁棒特征。用于多媒体信息处理领域。
-
公开(公告)号:CN101383149A
公开(公告)日:2009-03-11
申请号:CN200810137404.X
申请日:2008-10-27
Applicant: 哈尔滨工业大学
IPC: G10L11/00
Abstract: 弦乐音乐颤音自动检测方法,它涉及一种在自动音乐标注过程中对弦乐音乐实时检测的方法,以解决在弦乐音乐自动标注过程中,颤音对于自动音乐标注的影响较大以及传统的自动音乐标注方法不能对音乐中的颤音进行自动检测的问题。根据弦乐常用音域的音符数将颤音分为N类,通过音频识别的方法将N类颤音模型训练为匹配对象库;将输入待检测的音乐的音频信号,对音频信号进行特征提取得到特征矢量序列;以统计出来的颤音平均周期为长度对特征矢量序列进行分段;通过音频识别的方法对每一段矢量序列进行识别;连续M或M以上段被识别为同一类颤音的矢量序列所对应的时间段即检测为颤音的时间段。本发明自动检测颤音,去除颤音对于自动音乐标注的影响。
-
公开(公告)号:CN101315771A
公开(公告)日:2008-12-03
申请号:CN200810064669.1
申请日:2008-06-04
Applicant: 哈尔滨工业大学
IPC: G10L17/00
Abstract: 说话人识别中不同语音编码影响的补偿方法,它涉及一种在因特网上对说话人识别语音编码不匹配时的补偿方法,以解决在说话人识别中,训练语音和测试语音编码不匹配造成说话人识别性能下降的问题。本方法将说话人在标准编码方式下的语音信号进行特征处理和最大期望算法训练得到的标准编码方式下的说话人模型作为匹配对象库;输入待识别说话人的语音信号,进行特征提取得到特征矢量序列;在特征序列中选其前T帧得到序列进行MAP算法自适应获得当前编码和标准编码的偏差;用获得的当前编码和标准编码偏差对原特征序列作调整补偿,得到新特征矢量序列;用新特征矢量序列分别与标准编码方式下的说话人模型进行匹配和判决获得识别结果。
-
-
-
-