-
公开(公告)号:CN108711436A
公开(公告)日:2018-10-26
申请号:CN201810475055.6
申请日:2018-05-17
Applicant: 哈尔滨工业大学
Abstract: 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法,涉及说话人验证系统中的重放攻击电子欺诈检测方法,为了解决现有基线系统检测说话人验证系统重放攻击的等错误率高,可靠性差的问题。提取语音音频的高频特征,并输入高斯混合模型得到分类结果一;采用Light CNN提取语音音频的瓶颈特征,并输入随机森林集成学习模型,得到分类结果二;将分类结果一和分类结果二输入LR分类器得到检测结果,实现对重放攻击的检测。
-
公开(公告)号:CN117253475A
公开(公告)日:2023-12-19
申请号:CN202311297956.8
申请日:2023-10-09
Applicant: 哈尔滨工业大学
IPC: G10L15/16 , G10L15/06 , G06N3/044 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种基于音频质量评估与RNN状态判别的低算力需求嵌入式语音增强方法,包括:训练语音音频质量评估模型、设定质量阈值、训练语音增强模型,同时训练状态更新预测器、得到当前质量阈值条件下的,低算力需求的语音增强模型用于测试,测试时使用状态更新预测器进行Bi‑RNN的状态更新。其中语音音频质量评估模型,用于找出无语音及高质量语音片段跳过处理,减少计算;状态更新预测器用于替换原始的Bi‑RNN状态更新方式,大幅减少算力需求和计算成本。采用本发明,可解决现有嵌入式设备语音增强,算力需求高、处理效果差的问题。
-
公开(公告)号:CN110120231B
公开(公告)日:2021-04-02
申请号:CN201910408086.4
申请日:2019-05-15
Applicant: 哈尔滨工业大学
Abstract: 基于自适应半监督非负矩阵分解的跨语料情感识别方法,它属于语音中的情感识别技术领域。本发明解决了话者语音不匹配现象导致的现有跨语料语音情感识别方法对情感识别的准确率低的问题。本发明通过特征空间与标签空间共享编码信息的方式,可以学习到更具判别性的语音情感特征表示,同时采用最大平均差异来度量特征表示中存在的差异,减少话者语音的不匹配,并根据流形一致性假设,使得新的特征表示尽可能保留原始特征空间的信息,增强了语音情感特征表示的健壮性。本发明在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74%,加权平均召回率达到43.84%,有效提高了跨语料语音情感识别的准确率。本发明可以应用于语音中的情感识别技术领域。
-
公开(公告)号:CN110176250A
公开(公告)日:2019-08-27
申请号:CN201910464699.X
申请日:2019-05-30
Applicant: 哈尔滨工业大学
Abstract: 本发明提供一种基于局部学习的鲁棒声学场景识别方法,属于声音信号处理技术领域。本发明首先采集不同声学场景声音信号,进行频域特征提取;并对提取的特征数据预处理;然后对归一化后的数据进行均值平移、使用mixup方法进行数据扩充;再根据局部学习思想建立卷积神经网络模型,将经过数据扩充后的训练样本集输入该模型进行训练,得到训练好的模型;最后对待识别样本,依次进行频域特征提取、数据预处理,输入到所述训练好的模型中进行识别,得到声学场景识别结果。本发明解决了音频信道不匹配以及不同信道样本数目不平衡的情况下,声学场景识别准确度不高的问题。本发明可适用于信道多样且不同信道样本数目不平衡的声学场景识别。
-
公开(公告)号:CN102290047B
公开(公告)日:2012-12-12
申请号:CN201110283908.4
申请日:2011-09-22
Applicant: 哈尔滨工业大学
IPC: G10L15/02
Abstract: 基于稀疏分解与重构的鲁棒语音特征提取方法,涉及稀疏分解与重构的语音特征提取方法,解决了1、原子字典的选取:具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解:考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构:忽略了原子的先验概率以及各个原子相互转换的概率的问题,它包括具体步骤如下:步骤一、预处理;步骤二、作离散傅立叶变换,并求功率谱;步骤三、原子字典训练,保存;步骤四、稀疏分解;步骤五、语音谱重构;步骤六、加梅尔三角滤波器并取对数;步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接,形成鲁棒特征。用于多媒体信息处理领域。
-
公开(公告)号:CN101834801B
公开(公告)日:2012-11-21
申请号:CN201010177960.7
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。
-
公开(公告)号:CN102237089B
公开(公告)日:2012-11-14
申请号:CN201110233341.X
申请日:2011-08-15
Applicant: 哈尔滨工业大学
IPC: G10L17/00
Abstract: 一种减少文本无关说话人识别系统误识率的方法,它涉及一种减少说话人识别系统误识率的方法。本发明解决了现有的文本无关说话人识别系统在开集测试中误识率增大的问题。本方法:利用基准说话人识别系统得到闭集中已知说话人的识别阈值,将闭集中说话人分成男女两组,再将每组用阈值分段的形式把男女两组都再分为多个小组,再找到每个小组的中心分布;在基准说话人识别系统的前端加入粗筛选模块,判定测试语音的性别之后,将待测语音与同性别的小组的中心分布比较,得到待测语音的概率阈值;再用该概率阈值的语音帧进行识别。本方法的识别正确率比原系统提高2%~3%,本方法可用于文本无关说话人识别系统。
-
公开(公告)号:CN102426836A
公开(公告)日:2012-04-25
申请号:CN201110244531.1
申请日:2011-08-25
Applicant: 哈尔滨工业大学
Abstract: 基于分位数自适应裁剪的快速关键词检出方法,涉及连续语音中关键词的快速检出方法。解决关键词检出系统解码过程中自适应裁剪方法不能最大程度裁剪局部路径,导致系统效率低下的问题。将检测语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再进行基于分位数的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,并基于后验概率确认关键词候选得到识别结果,否则重新解码。本发明能很好的嵌入原有的关键词检出系统,同时在解码过程中的每一时刻,都能有效裁剪掉不可能的路径,最大程度上减小搜索空间规模,提高系统检出效率。
-
公开(公告)号:CN102332264A
公开(公告)日:2012-01-25
申请号:CN201110281881.5
申请日:2011-09-21
Applicant: 哈尔滨工业大学
IPC: G10L15/20
Abstract: 鲁棒性活动语音检测方法,属于音频信号处理领域。本发明为了解决现有的活动语音检测方法是基于傅立叶变换提取的频域音频特征,但该类型音频特征对噪音缺乏鲁棒性的问题。本发明方法包括:一:采样大量的历史语音数据,训练出语音字典集;二:根据所述语音字典集对输入的语音信号进行稀疏分解,提取语音的稀疏系数C;三:根据所述稀疏系数C重构被稀疏分解的语音信号四:获取所述重构的语音信号的时域能量序列E;五:设计一个短时窗W1,计算得分yn;六:设计一个长时窗W2,计算判决阈值βn;七:判断是否有yn>βn公式成立,是,则确定输入的语音信号S为语音,否,则确定输入的语音信号S为非语音,进而完成对活动语音的检测。
-
公开(公告)号:CN101833986A
公开(公告)日:2010-09-15
申请号:CN201010177959.4
申请日:2010-05-20
Applicant: 哈尔滨工业大学 , 国家计算机网络与信息安全管理中心
IPC: G11B27/10
Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。?
-
-
-
-
-
-
-
-
-