基于频谱图极大极小峰谷轨迹的音频分类方法与系统

    公开(公告)号:CN114842872A

    公开(公告)日:2022-08-02

    申请号:CN202210373422.8

    申请日:2022-04-11

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于频谱图极大极小峰谷轨迹的音频分类方法与系统,首先对音频进行切片,计算每个音频切片的频谱图;然后基于频谱图的振幅轴,计算振幅的极大值点的位置和振幅大小并排序,分别构造极大位置矩阵和极大振幅矩阵,连接后构造极大峰值特征矩阵;并计算振幅的极小值点的位置和振幅大小并排序,分别构造极小位置矩阵和极小振幅矩阵,连接后构造极小谷值特征矩阵,进而得到极大极小峰谷特征矩阵;最后将极大极小峰谷特征矩阵输入卷积神经网络,输出音频数据的分类结果。本发明对频谱图峰值轨迹和频谱图谷值轨迹之间的相互关系上进行了更为充分的探索;在输入模型之前对频谱图的轨迹特征进行了特征的聚合,可以提高分类的准确性。

    基于卷积神经网络的时频双域音频分类方法与系统

    公开(公告)号:CN114913872B

    公开(公告)日:2024-11-22

    申请号:CN202210560557.5

    申请日:2022-05-23

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于卷积神经网络的时频双域音频分类的方法与系统,首先对音频进行处理,得到音频的梅尔频谱图;然后基于梅尔频谱图的时间轴和频率轴计算,分别构造音色特征矩阵和时间特征矩阵,连接组成时频双域特征矩阵;再将其输入时频双域注意力模块进行信道加权和最大池化,最终得到音频的时频双域特征向量并将其输入分类器,得到音频的预测标签,之后计算预测标签和真实标签之间的损失,进行反向传播最小化损失。本发明通过加入监督性息,解决了原有随机化网络因缺少监督机制导致初始化权重方法不可靠且过分依赖模型结构本身的缺陷;时频双域注意力模块也很好的解决了平均池化会导致部分信道信息丢失的问题,进一步提高了音频分类的准确性。

    基于频谱图极大极小峰谷轨迹的音频分类方法与系统

    公开(公告)号:CN114842872B

    公开(公告)日:2025-05-06

    申请号:CN202210373422.8

    申请日:2022-04-11

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于频谱图极大极小峰谷轨迹的音频分类方法与系统,首先对音频进行切片,计算每个音频切片的频谱图;然后基于频谱图的振幅轴,计算振幅的极大值点的位置和振幅大小并排序,分别构造极大位置矩阵和极大振幅矩阵,连接后构造极大峰值特征矩阵;并计算振幅的极小值点的位置和振幅大小并排序,分别构造极小位置矩阵和极小振幅矩阵,连接后构造极小谷值特征矩阵,进而得到极大极小峰谷特征矩阵;最后将极大极小峰谷特征矩阵输入卷积神经网络,输出音频数据的分类结果。本发明对频谱图峰值轨迹和频谱图谷值轨迹之间的相互关系上进行了更为充分的探索;在输入模型之前对频谱图的轨迹特征进行了特征的聚合,可以提高分类的准确性。

    基于双层标签传播的增量半监督图像聚类方法与系统

    公开(公告)号:CN118823400A

    公开(公告)日:2024-10-22

    申请号:CN202410791202.6

    申请日:2024-06-19

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于双层标签传播的增量半监督图像聚类方法与系统,主要用于解决静态半监督聚类方法在面对增量图像数据与增量成对约束时重复计算所导致的效率低下问题。本发明使用双层标签传播来处理图像数据和约束条件不断增加的聚类问题。在第一层标签传播中,在图像数据样本中传播并扩散成对约束信息,并结合上一时刻图像数据样本对组件的隶属度矩阵,增量计算当前时刻图像样本对组件的隶属度矩阵。在第二层标签传播中,利用上一时刻的聚类结果在组件中标记簇标签信息,并让已知的簇标签信息在组件结构中进行传播,然后通过图像样本对组件的隶属度关系,将簇标签信息逐渐扩展到整个图像数据集,从而实现对增量图像数据的有效半监督聚类。

    基于卷积神经网络的时频双域音频分类方法与系统

    公开(公告)号:CN114913872A

    公开(公告)日:2022-08-16

    申请号:CN202210560557.5

    申请日:2022-05-23

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于卷积神经网络的时频双域音频分类的方法与系统,首先对音频进行处理,得到音频的梅尔频谱图;然后基于梅尔频谱图的时间轴和频率轴计算,分别构造音色特征矩阵和时间特征矩阵,连接组成时频双域特征矩阵;再将其输入时频双域注意力模块进行信道加权和最大池化,最终得到音频的时频双域特征向量并将其输入分类器,得到音频的预测标签,之后计算预测标签和真实标签之间的损失,进行反向传播最小化损失。本发明通过加入监督性息,解决了原有随机化网络因缺少监督机制导致初始化权重方法不可靠且过分依赖模型结构本身的缺陷;时频双域注意力模块也很好的解决了平均池化会导致部分信道信息丢失的问题,进一步提高了音频分类的准确性。

Patent Agency Ranking