-
公开(公告)号:CN110120231B
公开(公告)日:2021-04-02
申请号:CN201910408086.4
申请日:2019-05-15
Applicant: 哈尔滨工业大学
Abstract: 基于自适应半监督非负矩阵分解的跨语料情感识别方法,它属于语音中的情感识别技术领域。本发明解决了话者语音不匹配现象导致的现有跨语料语音情感识别方法对情感识别的准确率低的问题。本发明通过特征空间与标签空间共享编码信息的方式,可以学习到更具判别性的语音情感特征表示,同时采用最大平均差异来度量特征表示中存在的差异,减少话者语音的不匹配,并根据流形一致性假设,使得新的特征表示尽可能保留原始特征空间的信息,增强了语音情感特征表示的健壮性。本发明在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74%,加权平均召回率达到43.84%,有效提高了跨语料语音情感识别的准确率。本发明可以应用于语音中的情感识别技术领域。
-
公开(公告)号:CN110176250A
公开(公告)日:2019-08-27
申请号:CN201910464699.X
申请日:2019-05-30
Applicant: 哈尔滨工业大学
Abstract: 本发明提供一种基于局部学习的鲁棒声学场景识别方法,属于声音信号处理技术领域。本发明首先采集不同声学场景声音信号,进行频域特征提取;并对提取的特征数据预处理;然后对归一化后的数据进行均值平移、使用mixup方法进行数据扩充;再根据局部学习思想建立卷积神经网络模型,将经过数据扩充后的训练样本集输入该模型进行训练,得到训练好的模型;最后对待识别样本,依次进行频域特征提取、数据预处理,输入到所述训练好的模型中进行识别,得到声学场景识别结果。本发明解决了音频信道不匹配以及不同信道样本数目不平衡的情况下,声学场景识别准确度不高的问题。本发明可适用于信道多样且不同信道样本数目不平衡的声学场景识别。
-
公开(公告)号:CN102290047B
公开(公告)日:2012-12-12
申请号:CN201110283908.4
申请日:2011-09-22
Applicant: 哈尔滨工业大学
IPC: G10L15/02
Abstract: 基于稀疏分解与重构的鲁棒语音特征提取方法,涉及稀疏分解与重构的语音特征提取方法,解决了1、原子字典的选取:具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解:考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构:忽略了原子的先验概率以及各个原子相互转换的概率的问题,它包括具体步骤如下:步骤一、预处理;步骤二、作离散傅立叶变换,并求功率谱;步骤三、原子字典训练,保存;步骤四、稀疏分解;步骤五、语音谱重构;步骤六、加梅尔三角滤波器并取对数;步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接,形成鲁棒特征。用于多媒体信息处理领域。
-
公开(公告)号:CN102237089B
公开(公告)日:2012-11-14
申请号:CN201110233341.X
申请日:2011-08-15
Applicant: 哈尔滨工业大学
IPC: G10L17/00
Abstract: 一种减少文本无关说话人识别系统误识率的方法,它涉及一种减少说话人识别系统误识率的方法。本发明解决了现有的文本无关说话人识别系统在开集测试中误识率增大的问题。本方法:利用基准说话人识别系统得到闭集中已知说话人的识别阈值,将闭集中说话人分成男女两组,再将每组用阈值分段的形式把男女两组都再分为多个小组,再找到每个小组的中心分布;在基准说话人识别系统的前端加入粗筛选模块,判定测试语音的性别之后,将待测语音与同性别的小组的中心分布比较,得到待测语音的概率阈值;再用该概率阈值的语音帧进行识别。本方法的识别正确率比原系统提高2%~3%,本方法可用于文本无关说话人识别系统。
-
公开(公告)号:CN102426836A
公开(公告)日:2012-04-25
申请号:CN201110244531.1
申请日:2011-08-25
Applicant: 哈尔滨工业大学
Abstract: 基于分位数自适应裁剪的快速关键词检出方法,涉及连续语音中关键词的快速检出方法。解决关键词检出系统解码过程中自适应裁剪方法不能最大程度裁剪局部路径,导致系统效率低下的问题。将检测语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再进行基于分位数的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,并基于后验概率确认关键词候选得到识别结果,否则重新解码。本发明能很好的嵌入原有的关键词检出系统,同时在解码过程中的每一时刻,都能有效裁剪掉不可能的路径,最大程度上减小搜索空间规模,提高系统检出效率。
-
公开(公告)号:CN102332264A
公开(公告)日:2012-01-25
申请号:CN201110281881.5
申请日:2011-09-21
Applicant: 哈尔滨工业大学
IPC: G10L15/20
Abstract: 鲁棒性活动语音检测方法,属于音频信号处理领域。本发明为了解决现有的活动语音检测方法是基于傅立叶变换提取的频域音频特征,但该类型音频特征对噪音缺乏鲁棒性的问题。本发明方法包括:一:采样大量的历史语音数据,训练出语音字典集;二:根据所述语音字典集对输入的语音信号进行稀疏分解,提取语音的稀疏系数C;三:根据所述稀疏系数C重构被稀疏分解的语音信号四:获取所述重构的语音信号的时域能量序列E;五:设计一个短时窗W1,计算得分yn;六:设计一个长时窗W2,计算判决阈值βn;七:判断是否有yn>βn公式成立,是,则确定输入的语音信号S为语音,否,则确定输入的语音信号S为非语音,进而完成对活动语音的检测。
-
公开(公告)号:CN119299572A
公开(公告)日:2025-01-10
申请号:CN202411356666.0
申请日:2024-09-27
Applicant: 哈尔滨工业大学
IPC: H04M9/08 , G10L21/0208 , G10L25/30
Abstract: 本发明提供了一种用于双向通话的声学回声消除方法。通过采用本发明的回声消除方法,利用神经网络模型对输入信号和残余回声信号进行端到端的学习和建模,从而实现更加精确和有效的回声消除。在近端信号和远端信号经过时延对齐和线性回声消除后,近端信号中仍可能残留部分噪声和回声。通过神经网络,可以更好地消除这些残余成分,避免影响听感的残留问题。该方法结合了传统方法的优势和神经网络技术的能力,可以更好地适应复杂的通话环境,降低系统的计算成本,并提供更高质量的通话体验。
-
公开(公告)号:CN113362854B
公开(公告)日:2022-11-15
申请号:CN202110619344.0
申请日:2021-06-03
Applicant: 哈尔滨工业大学
Abstract: 基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测系统的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。
-
公开(公告)号:CN115249486A
公开(公告)日:2022-10-28
申请号:CN202210898097.7
申请日:2022-07-28
Applicant: 哈尔滨工业大学
IPC: G10L21/0216 , G10L21/0264 , G10L25/51 , G06K9/62
Abstract: 本发明公开了一种旋转机械音异常识别预处理方法及装置,方法包括以下处理阶段:采集阶段,声音采集传感器获取信号,传输并存储到本地或云服务器上;准备阶段,包含信噪比估计、分解还原度数值计算、还原精度计算、F0基频检测;处理阶段,包含Ramanujin子空间投影分解最小子空间个数q‑min搜索、Ramanujin子空间投影分解最小扫描长度L‑min搜索、最佳参数下的Ramanujin子空间投影分解。本发明通过应用估计的信噪比数值,推算Ramanujin子空间投影分解的信号还原度数值,以及还原精度,并通过F0基频检测确定最大Ramanujin子空间投影分解最大扫描长度L,并将其作为初始值,搜索Ramanujin子空间投影分解最小子空间个数q‑min,以及Ramanujin子空间投影分解最小扫描长度L‑min,由此得到最优Ramanujin子空间投影分解参数,获得旋转机械音最佳的分解降噪结果,显著提升降噪水平,提升异常识别准确率。
-
公开(公告)号:CN113362854A
公开(公告)日:2021-09-07
申请号:CN202110619344.0
申请日:2021-06-03
Applicant: 哈尔滨工业大学
Abstract: 基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测系统的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。
-
-
-
-
-
-
-
-
-