基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

    公开(公告)号:CN113380232B

    公开(公告)日:2022-11-15

    申请号:CN202110661855.9

    申请日:2021-06-15

    Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。

    一种基于卷积神经网络关系建模的环境声音分类方法

    公开(公告)号:CN113362855B

    公开(公告)日:2022-06-21

    申请号:CN202110679471.X

    申请日:2021-06-18

    Abstract: 一种基于卷积神经网络关系建模的环境声音分类方法,本发明涉及基于卷积神经网络关系建模的环境声音分类方法。本发明的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明用于环境声音分类领域。

    一种基于卷积神经网络关系建模的环境声音分类方法

    公开(公告)号:CN113362855A

    公开(公告)日:2021-09-07

    申请号:CN202110679471.X

    申请日:2021-06-18

    Abstract: 一种基于卷积神经网络关系建模的环境声音分类方法,本发明涉及基于卷积神经网络关系建模的环境声音分类方法。本发明的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明用于环境声音分类领域。

    行车噪声环境下的快速声学事件检测系统

    公开(公告)号:CN104361887A

    公开(公告)日:2015-02-18

    申请号:CN201410668501.7

    申请日:2014-11-20

    Abstract: 行车噪声环境下的快速声学事件检测系统,涉及快速声学事件检测系统。本发明为了解决现有的声学事件检测系统在行车环境下系统识别率较低的问题。行车噪声环境下的快速声学事件检测系统包括:声学事件模型训练模块、风噪模型训练模块和识别检测模块;所述的识别检测模块包括声音采集和预处理子模块、去噪子模块、AWeighting加权子模块、特征提取子模块及SVM模型识别子模块;该系统对于行车环境下不可避免的风噪具有较好的抗噪能力,在各种风噪条件下检测性能具有鲁棒性;在相同的风噪条件下,本发明比现有的声学事件检测系统的识别率提高20%-30%。本发明适用于快速声学事件的检测。

    一种基于GPU实现的快速音频检索方法

    公开(公告)号:CN102033927B

    公开(公告)日:2012-09-05

    申请号:CN201010589841.2

    申请日:2010-12-15

    Inventor: 韩纪庆 杜艳斌

    Abstract: 一种基于GPU实现的快速音频检索方法。本发明涉及检索的方法。本发明解决了现有基于内容音频检索方法检索速度慢的问题。一、判断图像处理器GPU中是否有音频片段的特征信息,否进入步骤二,是进入步骤三;二、预处理;三、音频片段向量滑动匹配;四、向量滑动匹配结果是否大于设定的第一阈值的结果,否返回步骤一;是进入步骤五;五、音频片段梅尔倒谱系数特征矩阵匹配;六、梅尔倒谱系数矩阵匹配结果大于设定的第二阈值的结果,否返回步骤一,是判定为匹配成功,对匹配成功的结果进行相应的处理。本方法不仅极大的提高了音频检索速度,而且保证了检索的精确度。

    基于置信度的关键词检出系统裁剪方法

    公开(公告)号:CN102402984A

    公开(公告)日:2012-04-04

    申请号:CN201110280603.8

    申请日:2011-09-21

    Abstract: 基于置信度的关键词检出系统裁剪方法,涉及关键词检出系统中的局部路径裁剪方法。解决现有基于似然分的路径裁剪不能最大程度地缩减搜索空间,从而导致系统效率低,关键词确认阶段计算量大的问题。将语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再计算特征矢量的后验概率,累加得局部路径置信度得分;然后依次进行基于似然分和置信度的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,得到识别结果,否则重新解码。本发明能最大程度地缩减搜索空间,能减少30%的关键词候选。本发明适用于确认阶段计算量大的任务中。

    一种集内说话者的识别方法

    公开(公告)号:CN101552004B

    公开(公告)日:2011-04-06

    申请号:CN200910072019.6

    申请日:2009-05-13

    Inventor: 韩纪庆 张光成

    Abstract: 一种集内说话者的识别方法,涉及语音识别技术领域。它解决了现有文本无关说话人识别技术中,误识较多的问题。本发明首先对提取的特征信息采用集内外辨识模块进行判断,将判定为集外说话人的特征信息放弃,只对判定为集内的特征信息进行具体说话人的判断,减少了说话人识别系统的工作量,提高了判断速度。本发明还对判定为某一说话人的特征信息,采用该说话人的冒认者模型作进一步验证判断,最终获得所述特征信息所对应的说话人信息。提高了特征信息识别的准确率。本发明的方法适用于语音识别技术领域。

    弦乐音乐颤音自动检测方法

    公开(公告)号:CN101383149B

    公开(公告)日:2011-02-02

    申请号:CN200810137404.X

    申请日:2008-10-27

    Inventor: 韩纪庆 孙荣坤

    Abstract: 弦乐音乐颤音自动检测方法,它涉及一种在自动音乐标注过程中对弦乐音乐实时检测的方法,以解决在弦乐音乐自动标注过程中,颤音对于自动音乐标注的影响较大以及传统的自动音乐标注方法不能对音乐中的颤音进行自动检测的问题。根据弦乐常用音域的音符数将颤音分为N类,通过音频识别的方法将N类颤音模型训练为匹配对象库;将输入待检测的音乐的音频信号,对音频信号进行特征提取得到特征矢量序列;以统计出来的颤音平均周期为长度对特征矢量序列进行分段;通过音频识别的方法对每一段矢量序列进行识别;连续M或M以上段被识别为同一类颤音的矢量序列所对应的时间段即检测为颤音的时间段。本发明自动检测颤音,去除颤音对于自动音乐标注的影响。

    一种集内说话者的识别方法

    公开(公告)号:CN101552004A

    公开(公告)日:2009-10-07

    申请号:CN200910072019.6

    申请日:2009-05-13

    Inventor: 韩纪庆 张光成

    Abstract: 一种集内说话者的识别方法,涉及语音识别技术领域。它解决了现有文本无关说话人识别技术中,误识较多的问题。本发明首先对提取的特征信息采用集内外辨识模块进行判断,将判定为集外说话人的特征信息放弃,只对判定为集内的特征信息进行具体说话人的判断,减少了说话人识别系统的工作量,提高了判断速度。本发明还对判定为某一说话人的特征信息,采用该说话人的冒认者模型作进一步验证判断,最终获得所述特征信息所对应的说话人信息。提高了特征信息识别的准确率。本发明的方法适用于语音识别技术领域。

Patent Agency Ranking