环境声音事件检测方法、装置和介质

    公开(公告)号:CN114974302A

    公开(公告)日:2022-08-30

    申请号:CN202210484489.9

    申请日:2022-05-06

    Abstract: 本申请公开了环境声音事件检测方法、装置和介质,其中方法包括对环境声音进行特征提取,得到数据集,所述数据集中包含多事件类别;分别以所述数据集中的Mel、MFCC和LogMel作为输入特征;用双向GRU对所述输入特征进行训练;获得环境声音多分类模型概率输出。对比传统的应用于声音处理的深度学习方法,本申请先通过CNN提取事件音频的声谱图作为特征输入;双向GRU自动从每个输入声谱图中提取特征序列,在卷积网络之上,构建了一个循环网络,用于对卷积层的输出特征序列进行声学建模,建立内部序列关系;最后通过分类函数对音频信号进行预测,得到最终预测结果,在多事件音频检测这一任务上性能较高,比使用单一的卷积网络应用性更强,提高了系统的实用价值。

    基于迁移学习的环境声音分类分析方法、装置和介质

    公开(公告)号:CN114861784A

    公开(公告)日:2022-08-05

    申请号:CN202210451946.4

    申请日:2022-04-24

    Abstract: 本申请公开了基于迁移学习的环境声音分类分析方法、装置和介质,其中的方法包括:使用Yamnet模型对的环境声音样本进行特征提取,获得噪声并将所述噪声嵌入每个所述环境声音样本的序列的声音特征,得到特征向量;采用深度卷积神经网络对所述特征向量进行深度特征提取,获得每个所述环境声音样本的深层嵌入特征;将所述深层嵌入特征输入深度卷积神经网络的全连接层进行模型的训练和测试,输出每个所述环境声音样本的序列的预测概率,用多数投票法得到最终的环境声音分类结果。本申请将为节省研发资源,以及将大数据机器学习成果转移到小数据、定制化应用等等提供了一个便捷的渠道,具有广泛的应用前景以及巨大的实用价值。

    环境声音描述方法、装置、电子设备及存储介质

    公开(公告)号:CN116486830A

    公开(公告)日:2023-07-25

    申请号:CN202310392211.3

    申请日:2023-04-12

    Abstract: 本发明提供一种环境声音描述方法、装置、电子设备及存储介质,该环境声音描述方法包括:响应于环境声音描述请求,获取第一目标环境声音,对第一目标环境声音执行预处理,得到第二目标环境声音;对第二目标环境声音采用环境声音描述模型进行识别处理,得到第一目标环境声音的描述结果;环境声音描述模型的训练包括:获取环境声音的音频数据集,对音频数据集执行音频剪辑处理,得到验证集及测试集;对验证集及测试集执行预处理,进而执行基于迁移学习处理,得到音频特征;对音频特征执行深度卷积神经网络训练处理,得到环境声音描述模型。本发明的有益效果为:提高了声源描述准确率和声源检测的扩展性。

    多模态数据集成管理方法、装置及介质

    公开(公告)号:CN116150320A

    公开(公告)日:2023-05-23

    申请号:CN202310026624.X

    申请日:2023-01-09

    Abstract: 本发明提供一种多模态数据集成管理方法、装置及介质,该多模态数据集成管理方法包括:对接入的第一多模态数据执行临时存储;对第一多模态数据执行预处理,得到第二多模态数据;对第二多模态数据执行提取,得到包括有数据特征、数据来源及存储位置的元数据;采用对应的数据存储方式对元数据执行存储。使用可定制算法来实现文本、声音及视觉数据的统一集成,通过使用本体模型/元模型的方式统一提取文本、声音和视觉数据的元数据,并通过对象存储辅以结构化存储方式,来实现多模态的统一存储,借助元数据和对象存储技术,实现多模态数据的高可靠、高性能访问的统一管理,使得多模态数据分析效率和准确性大大提升。

    一种声学场景分类方法、系统、装置及存储介质

    公开(公告)号:CN115798510A

    公开(公告)日:2023-03-14

    申请号:CN202211247560.8

    申请日:2022-10-12

    Abstract: 本发明公开了一种声学场景分类方法、系统、装置及存储介质,声学场景分类方法通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。本发明可广泛应用于计算机技术领域。

    基于深度学习的声音隔离方法、装置和存储介质

    公开(公告)号:CN115713944A

    公开(公告)日:2023-02-24

    申请号:CN202211335613.1

    申请日:2022-10-28

    Abstract: 本申请公开了基于深度学习的声音隔离方法、装置和存储介质,本申请的方法包括获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理;构建DeepAudioSep模型并训练所述DeepAudioSep模型,所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出;通过所述DeepAudioSep模型进行声音分离。本申请将数据驱动和深度学习思想引入声音分离及噪声隔离处理,提升在环境监测领域对于声音分离及噪声隔离处理能力,因此具有广泛的噪声处理前景及实用价值。

    一种多模态数据的融合方法、系统及存储介质

    公开(公告)号:CN115545093A

    公开(公告)日:2022-12-30

    申请号:CN202211107885.6

    申请日:2022-09-13

    Abstract: 本发明公开了一种多模态数据的融合方法、系统及存储介质,方法包括:获取多模态原始数据;对文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征;对语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征;对视频数据进行序列化处理,结合循环神经网络提取得到预设维度的视频特征;对文本特征、语音特征和视频特征进行对齐拼接处理,得到预设通道的特征向量;根据特征向量,通过多核分类模型进行线性连接,得到多模态特征分类结果。本发明能够实现对文本、语音和视觉的多模态数据的统一特征提取和融合,从而促进从单模态数据到多模态数据的分析和应用,可广泛应用于数据处理技术领域。

Patent Agency Ranking