-
公开(公告)号:CN110047506A
公开(公告)日:2019-07-23
申请号:CN201910319987.6
申请日:2019-04-19
Applicant: 杭州电子科技大学
Abstract: 本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;S2:建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络,得到对应的两个特征提取的网络模型;S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取对应的特征;S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合,提高了检测识别准确率。
-
公开(公告)号:CN109635790A
公开(公告)日:2019-04-16
申请号:CN201910079769.X
申请日:2019-01-28
Applicant: 杭州电子科技大学
CPC classification number: G06K9/00335 , G06N3/0454
Abstract: 本发明公开一种基于3D卷积的行人异常行为识别方法,包括步骤:S1:创建一个包含打架斗殴、遛狗、摔倒等异常行为的数据集;S2:结合最新的视频行为识别方案,构建一个兼顾精度与速率的3D卷积神经网络;S3:对数据集中图像进行预处理后送入3D卷积神经网络,得到视频异常行为识别模型;S4:输入测试行人监控视频,输出异常行为类型。本发明所述识别方法将轻量级的2D卷积网络MobileNet思想迁移到3D网络中,可以在保持识别性能的基础上降低计算成本;同时,采用自适应池化层与稀疏时间采样策略,可以减少连续帧中包含大量冗余的信息与模糊噪声。
-
公开(公告)号:CN112331232A
公开(公告)日:2021-02-05
申请号:CN202011228473.9
申请日:2020-11-06
Applicant: 杭州电子科技大学
IPC: G10L25/63 , G10L21/0208 , G10L21/0232 , G10L25/03 , G10L25/18 , G10L25/30 , G10L25/45
Abstract: 本发明公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括:S1、获取干净语谱图以及加噪语谱图;S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练,得到去噪模型;S3、利用去噪模型对加噪语谱图进行去噪处理,分别进行两个不同尺度的双边滤波,得到低、高尺度滤波图,低、高尺度滤波图相差再乘以增强系数,然后与低尺度滤波图相加,得到细节增强的语谱图;S4、将细节增强的语谱图输入卷积神经网络模型中进行分类,得到分类模型;S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到的细节增强的语谱图输入分类模型,得到语音情感分类结果。本发明有效实现语音情感的识别。
-
公开(公告)号:CN109920111A
公开(公告)日:2019-06-21
申请号:CN201910163121.0
申请日:2019-03-05
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种人脸识别和步态识别融合的门禁系统,包括步态采集装置、人脸采集装置、步态数据库、人脸数据库、步态匹配模块、人脸匹配模块、特征融合模块、中央控制器、电源模块、电脑记录仪、门禁控制器和警报器,电源模块、电脑记录仪、门禁控制器、警报器分别连接中央控制器,步态采集装置和步态数据库都连接步态匹配模块,人脸采集装置和人脸数据库都连接人脸匹配模块,步态匹配模块和人脸匹配模块都连接特征融合模块。本系统采用特征融合的方式进行身份识别,鲁棒性好,识别率高,电脑记录仪实时记录通过和未通过门禁的数据,整个系统管理方便,安全高效。
-
公开(公告)号:CN112331232B
公开(公告)日:2022-08-12
申请号:CN202011228473.9
申请日:2020-11-06
Applicant: 杭州电子科技大学
IPC: G10L25/63 , G10L21/0208 , G10L21/0232 , G10L25/03 , G10L25/18 , G10L25/30 , G10L25/45
Abstract: 本发明公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括:S1、获取干净语谱图以及加噪语谱图;S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练,得到去噪模型;S3、利用去噪模型对加噪语谱图进行去噪处理,分别进行两个不同尺度的双边滤波,得到低、高尺度滤波图,低、高尺度滤波图相差再乘以增强系数,然后与低尺度滤波图相加,得到细节增强的语谱图;S4、将细节增强的语谱图输入卷积神经网络模型中进行分类,得到分类模型;S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到的细节增强的语谱图输入分类模型,得到语音情感分类结果。本发明有效实现语音情感的识别。
-
公开(公告)号:CN110047506B
公开(公告)日:2021-08-20
申请号:CN201910319987.6
申请日:2019-04-19
Applicant: 杭州电子科技大学
Abstract: 本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;S2:建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络,得到对应的两个特征提取的网络模型;S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取对应的特征;S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合,提高了检测识别准确率。
-
-
-
-
-