Patent search ap:("杭州电子科技大学") AND inv:"刘兆森" Page 1

1.

发明授权
一种基于卷积神经网络和多核学习SVM的关键音频检测方法有权

公开(公告)号：CN110047506B

公开(公告)日：2021-08-20

申请号：CN201910319987.6

申请日：2019-04-19

Applicant: 杭州电子科技大学

Inventor： 朱宸都 , 应娜 , 李怡菲 , 蔡哲栋 , 刘兆森 , 杨鹏

IPC: G10L25/30 , G10L25/03 , G10L25/48 , G06K9/62 , G06N3/04

Abstract: 本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法，包括步骤：S1：处理音频数据集，得到音频原始波形序列数据集和音频声谱图数据集；S2：建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络；S3：使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络，得到对应的两个特征提取的网络模型；S4：输入音频的原始波形序列和声谱图分别至对应的两个网络模型，提取对应的特征；S5：输入两类特征至多核支持向量机，构建基于特征融合模型的核函数，进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合，提高了检测识别准确率。

2.

发明公开
一种基于卷积神经网络和多核学习SVM的关键音频检测方法有权

公开(公告)号：CN110047506A

公开(公告)日：2019-07-23

申请号：CN201910319987.6

申请日：2019-04-19

Applicant: 杭州电子科技大学

Inventor： 朱宸都 , 应娜 , 李怡菲 , 蔡哲栋 , 刘兆森 , 杨鹏

IPC: G10L25/30 , G10L25/03 , G10L25/48 , G06K9/62 , G06N3/04

Abstract: 本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法，包括步骤：S1：处理音频数据集，得到音频原始波形序列数据集和音频声谱图数据集；S2：建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络；S3：使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络，得到对应的两个特征提取的网络模型；S4：输入音频的原始波形序列和声谱图分别至对应的两个网络模型，提取对应的特征；S5：输入两类特征至多核支持向量机，构建基于特征融合模型的核函数，进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合，提高了检测识别准确率。

3.

发明公开
一种基于强化学习优化的多人姿态检测方法无效

公开(公告)号：CN109858430A

公开(公告)日：2019-06-07

申请号：CN201910080912.7

申请日：2019-01-28

Applicant: 杭州电子科技大学

Inventor： 黄铎 , 应娜 , 郭春生 , 朱宸都 , 蔡哲栋 , 刘兆森

IPC: G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明提供一种基于强化学习优化的多人姿态检测方法。针对传统方法中目标检测器所定位的有些包围框不能很好地贴合人体，导致姿态检测器的检测精度下降，进而影响到整个多人姿态检测算法的精度，提出了基于强化学习的目标精细模型，针对不够精确的包围框进行调整。目标精细模型使得包围框能更加贴合人体，减少了包围框中图像的冗余信息，可以提高姿态检测器的检测精度。

4.

发明公开
一种基于3D卷积的行人异常行为识别方法无效

公开(公告)号：CN109635790A

公开(公告)日：2019-04-16

申请号：CN201910079769.X

申请日：2019-01-28

Applicant: 杭州电子科技大学

Inventor： 刘兆森 , 应娜 , 郭春生 , 朱辰都 , 杨鹏 , 李怡菲

IPC: G06K9/00 , G06N3/04

CPC classification number: G06K9/00335 , G06N3/0454

Abstract: 本发明公开一种基于3D卷积的行人异常行为识别方法，包括步骤：S1：创建一个包含打架斗殴、遛狗、摔倒等异常行为的数据集；S2：结合最新的视频行为识别方案，构建一个兼顾精度与速率的3D卷积神经网络；S3：对数据集中图像进行预处理后送入3D卷积神经网络，得到视频异常行为识别模型；S4：输入测试行人监控视频，输出异常行为类型。本发明所述识别方法将轻量级的2D卷积网络MobileNet思想迁移到3D网络中，可以在保持识别性能的基础上降低计算成本；同时，采用自适应池化层与稀疏时间采样策略，可以减少连续帧中包含大量冗余的信息与模糊噪声。

Patent Agency Ranking