-
公开(公告)号:CN110164418B
公开(公告)日:2021-08-27
申请号:CN201910621276.4
申请日:2019-07-10
Applicant: 哈尔滨工业大学
Abstract: 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分,然后进行局部特征提取,将卷积神经网络与Grid‑LSTM相结合,弥补了Grid‑LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。
-
公开(公告)号:CN110176250B
公开(公告)日:2021-05-07
申请号:CN201910464699.X
申请日:2019-05-30
Applicant: 哈尔滨工业大学
Abstract: 本发明提供一种基于局部学习的鲁棒声学场景识别方法,属于声音信号处理技术领域。本发明首先采集不同声学场景声音信号,进行频域特征提取;并对提取的特征数据预处理;然后对归一化后的数据进行均值平移、使用mixup方法进行数据扩充;再根据局部学习思想建立卷积神经网络模型,将经过数据扩充后的训练样本集输入该模型进行训练,得到训练好的模型;最后对待识别样本,依次进行频域特征提取、数据预处理,输入到所述训练好的模型中进行识别,得到声学场景识别结果。本发明解决了音频信道不匹配以及不同信道样本数目不平衡的情况下,声学场景识别准确度不高的问题。本发明可适用于信道多样且不同信道样本数目不平衡的声学场景识别。
-
公开(公告)号:CN110148428B
公开(公告)日:2021-04-02
申请号:CN201910447562.3
申请日:2019-05-27
Applicant: 哈尔滨工业大学
Abstract: 一种基于子空间表示学习的声学事件识别方法,涉及声音信号处理技术领域,为解决现有技术在AER任务中,语义特征提取时不能兼顾原始信号本质内容和时序结构的问题,包括:步骤1、信号预处理,步骤2、帧级特征提取,步骤3、子声学事件特征提取,步骤4、子声学事件特征的时序扩展,步骤5、子声学事件特征间的整体语义特征提取,步骤6、声学事件的识别,本发明提取语义特征时,能够兼顾原始信号的整体内容信息和全局时序结构。
-
公开(公告)号:CN110335594A
公开(公告)日:2019-10-15
申请号:CN201910625555.8
申请日:2019-07-11
Applicant: 哈尔滨工业大学
Abstract: 本发明提供基于多示例学习的自动语音识别困难样本挖掘方法,属于语音信号处理技术领域。本发明首先收集语料数据建立数据集、选取训练数据;然后对训练集进行人工标注;使用标注好的训练集建立困难样本检测模型,并对其进行训练;再用训练好的困难样本检测模型在剩余集合上挖掘候选困难样本;最后进行困难样本筛选与标注:对检测到的候选困难样本进行人工确认,同时将人工确认后的困难样本进行标注。本发明解决了现有自动语音识别技术需要人工标注大量数据集的问题。本发明可用于语音识别系统对新领域的快速自适应。
-
公开(公告)号:CN110136741A
公开(公告)日:2019-08-16
申请号:CN201910411692.1
申请日:2019-05-16
Applicant: 哈尔滨工业大学
IPC: G10L21/0264 , G10L25/30
Abstract: 一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。
-
公开(公告)号:CN102426836B
公开(公告)日:2013-03-20
申请号:CN201110244531.1
申请日:2011-08-25
Applicant: 哈尔滨工业大学
Abstract: 基于分位数自适应裁剪的快速关键词检出方法,涉及连续语音中关键词的快速检出方法。解决关键词检出系统解码过程中自适应裁剪方法不能最大程度裁剪局部路径,导致系统效率低下的问题。将检测语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再进行基于分位数的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,并基于后验概率确认关键词候选得到识别结果,否则重新解码。本发明能很好的嵌入原有的关键词检出系统,同时在解码过程中的每一时刻,都能有效裁剪掉不可能的路径,最大程度上减小搜索空间规模,提高系统检出效率。
-
公开(公告)号:CN102237089A
公开(公告)日:2011-11-09
申请号:CN201110233341.X
申请日:2011-08-15
Applicant: 哈尔滨工业大学
IPC: G10L17/00
Abstract: 一种减少文本无关说话人识别系统误识率的方法,它涉及一种减少说话人识别系统误识率的方法。本发明解决了现有的文本无关说话人识别系统在开集测试中误识率增大的问题。本方法:利用基准说话人识别系统得到闭集中已知说话人的识别阈值,将闭集中说话人分成男女两组,再将每组用阈值分段的形式把男女两组都再分为多个小组,再找到每个小组的中心分布;在基准说话人识别系统的前端加入粗筛选模块,判定测试语音的性别之后,将待测语音与同性别的小组的中心分布比较,得到待测语音的概率阈值;再用该概率阈值的语音帧进行识别。本方法的识别正确率比原系统提高2%~3%,本方法可用于文本无关说话人识别系统。
-
公开(公告)号:CN102033927A
公开(公告)日:2011-04-27
申请号:CN201010589841.2
申请日:2010-12-15
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 一种基于GPU实现的快速音频检索方法。本发明涉及检索的方法。本发明解决了现有基于内容音频检索方法检索速度慢的问题。一、判断图像处理器GPU中是否有音频片段的特征信息,否进入步骤二,是进入步骤三;二、预处理;三、音频片段向量滑动匹配;四、向量滑动匹配结果是否大于设定的第一阈值的结果,否返回步骤一;是进入步骤五;五、音频片段梅尔倒谱系数特征矩阵匹配;六、梅尔倒谱系数矩阵匹配结果大于设定的第二阈值的结果,否返回步骤一,是判定为匹配成功,对匹配成功的结果进行相应的处理。本方法不仅极大的提高了音频检索速度,而且保证了检索的精确度。
-
公开(公告)号:CN118503827A
公开(公告)日:2024-08-16
申请号:CN202410661126.7
申请日:2024-05-27
Applicant: 哈尔滨工业大学
IPC: G06F18/2415 , G06F18/213 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种鲁棒工业设备异常音检测方法,以解决工业环境下异常音检测技术的鲁棒性问题。在工业应用中,由于设备频繁切换工况,导致正常状态的音频数据不均衡,深度模型容易忽略少数不常见样本,从而影响异常音检测模型的鲁棒性,现有技术尚未有效解决这一问题。本发明采用增量高斯混合模型,对正常样本的重构误差,进行动态概率建模,从而分辨出少数样本,并结合焦点损失,在训练过程中对其进行强调,同时结合矩损失,以促进异常得分分布的集中性,并在检测中综合考虑重构误差及误差值的概率,从而提高了异常音检测的鲁棒性。本发明可以显著提升异常音检测技术的鲁棒性,特别是在面对实际应用中常见的采样不均匀问题时。
-
公开(公告)号:CN115249486B
公开(公告)日:2024-04-09
申请号:CN202210898097.7
申请日:2022-07-28
Applicant: 哈尔滨工业大学
IPC: G10L21/0216 , G10L21/0264 , G10L25/51 , G06F18/2321
Abstract: 本发明公开了一种旋转机械音异常识别预处理方法及装置,方法包括以下处理阶段:采集阶段,声音采集传感器获取信号,传输并存储到本地或云服务器上;准备阶段,包含信噪比估计、分解还原度数值计算、还原精度计算、F0基频检测;处理阶段,包含Ramanujin子空间投影分解最小子空间个数q‑min搜索、Ramanujin子空间投影分解最小扫描长度L‑min搜索、最佳参数下的Ramanujin子空间投影分解。本发明通过应用估计的信噪比数值,推算Ramanujin子空间投影分解的信号还原度数值,以及还原精度,并通过F0基频检测确定最大Ramanujin子空间投影分解最大扫描长度L,并将其作为初始值,搜索Ramanujin子空间投影分解最小子空间个数q‑min,以及Ramanujin子空间投影分解最小扫描长度L‑min,由此得到最优Ramanujin子空间投影分解参数,获得旋转机械音最佳的分解降噪结果,显著提升降噪水平,提升异常识别准确率。
-
-
-
-
-
-
-
-
-