-
公开(公告)号:CN117351995B
公开(公告)日:2025-04-15
申请号:CN202311247442.1
申请日:2023-09-25
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明提出了一种基于深度学习复合模型的环境声音识别方法及装置,该方法包括:获取环境音频,对环境音频进行特征提取得到环境音频特征,将环境音频特征输入预先训练好的复合模型,复合模型包括多个网络结构不同的通用模型;通过通用模型识别出各个类别标签对应的通用识别置信度;基于通用模型的模型权值和通用识别置信度,确定各个类别标签的目标加权置信度作为通用模型的分类输出结果;根据目标加权置信度的均值得到复合模型的输出结果。根据本发明实施例的技术方案,能够通过多个不同网络结构的通用模型对环境音频识别的置信度进行加权融合,能够降低分类识别的过拟合风险,增强泛化能力,能够在长期使用场景下维持对环境音频识别的准确性。
-
公开(公告)号:CN115759717A
公开(公告)日:2023-03-07
申请号:CN202211383611.X
申请日:2022-11-07
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06Q10/0633 , G06F30/27 , G06N20/00 , G06N5/04
Abstract: 本申请公开了一种大数据分析建模处理方法、装置和存储介质,本申请的方法包括构建分析模型;编辑所述分析模型的输入、输出和特征处理流程;编辑所述分析模型的机器学习模型推理序列;运行所述分析模型的Spark任务,获得运行结果。本申请部署和生成任务时无需编程实现,可针对任务的处理流程和输入输出进行灵活组合,可组合多个模型进行并行或串行处理,实现了大数据的分布式、动态伸缩和跨平台的分析建模。
-
公开(公告)号:CN114974302A
公开(公告)日:2022-08-30
申请号:CN202210484489.9
申请日:2022-05-06
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本申请公开了环境声音事件检测方法、装置和介质,其中方法包括对环境声音进行特征提取,得到数据集,所述数据集中包含多事件类别;分别以所述数据集中的Mel、MFCC和LogMel作为输入特征;用双向GRU对所述输入特征进行训练;获得环境声音多分类模型概率输出。对比传统的应用于声音处理的深度学习方法,本申请先通过CNN提取事件音频的声谱图作为特征输入;双向GRU自动从每个输入声谱图中提取特征序列,在卷积网络之上,构建了一个循环网络,用于对卷积层的输出特征序列进行声学建模,建立内部序列关系;最后通过分类函数对音频信号进行预测,得到最终预测结果,在多事件音频检测这一任务上性能较高,比使用单一的卷积网络应用性更强,提高了系统的实用价值。
-
公开(公告)号:CN114882909A
公开(公告)日:2022-08-09
申请号:CN202210403964.5
申请日:2022-04-18
Applicant: 珠海高凌信息科技股份有限公司
IPC: G10L25/51 , G10L25/30 , G10L21/0332 , G10L21/0208
Abstract: 本申请公开了一种环境声音分类分析方法、装置和介质,其中的方法包括:对语音训练数据进行数据增强;进行数据预处理并对环境声音进行特征提取,得到特征向量;采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。本申请采用了数据增强的方法,通过实验表明其训练效果相比没有数据增强有了较大提升,提高了系统的实用价值。
-
公开(公告)号:CN114861784A
公开(公告)日:2022-08-05
申请号:CN202210451946.4
申请日:2022-04-24
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本申请公开了基于迁移学习的环境声音分类分析方法、装置和介质,其中的方法包括:使用Yamnet模型对的环境声音样本进行特征提取,获得噪声并将所述噪声嵌入每个所述环境声音样本的序列的声音特征,得到特征向量;采用深度卷积神经网络对所述特征向量进行深度特征提取,获得每个所述环境声音样本的深层嵌入特征;将所述深层嵌入特征输入深度卷积神经网络的全连接层进行模型的训练和测试,输出每个所述环境声音样本的序列的预测概率,用多数投票法得到最终的环境声音分类结果。本申请将为节省研发资源,以及将大数据机器学习成果转移到小数据、定制化应用等等提供了一个便捷的渠道,具有广泛的应用前景以及巨大的实用价值。
-
公开(公告)号:CN116486830A
公开(公告)日:2023-07-25
申请号:CN202310392211.3
申请日:2023-04-12
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明提供一种环境声音描述方法、装置、电子设备及存储介质,该环境声音描述方法包括:响应于环境声音描述请求,获取第一目标环境声音,对第一目标环境声音执行预处理,得到第二目标环境声音;对第二目标环境声音采用环境声音描述模型进行识别处理,得到第一目标环境声音的描述结果;环境声音描述模型的训练包括:获取环境声音的音频数据集,对音频数据集执行音频剪辑处理,得到验证集及测试集;对验证集及测试集执行预处理,进而执行基于迁移学习处理,得到音频特征;对音频特征执行深度卷积神经网络训练处理,得到环境声音描述模型。本发明的有益效果为:提高了声源描述准确率和声源检测的扩展性。
-
公开(公告)号:CN116150320A
公开(公告)日:2023-05-23
申请号:CN202310026624.X
申请日:2023-01-09
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06F16/33 , G06F16/25 , G06F40/216 , G06F16/215 , G06F18/23213
Abstract: 本发明提供一种多模态数据集成管理方法、装置及介质,该多模态数据集成管理方法包括:对接入的第一多模态数据执行临时存储;对第一多模态数据执行预处理,得到第二多模态数据;对第二多模态数据执行提取,得到包括有数据特征、数据来源及存储位置的元数据;采用对应的数据存储方式对元数据执行存储。使用可定制算法来实现文本、声音及视觉数据的统一集成,通过使用本体模型/元模型的方式统一提取文本、声音和视觉数据的元数据,并通过对象存储辅以结构化存储方式,来实现多模态的统一存储,借助元数据和对象存储技术,实现多模态数据的高可靠、高性能访问的统一管理,使得多模态数据分析效率和准确性大大提升。
-
公开(公告)号:CN115798510A
公开(公告)日:2023-03-14
申请号:CN202211247560.8
申请日:2022-10-12
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明公开了一种声学场景分类方法、系统、装置及存储介质,声学场景分类方法通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。本发明可广泛应用于计算机技术领域。
-
公开(公告)号:CN115713944A
公开(公告)日:2023-02-24
申请号:CN202211335613.1
申请日:2022-10-28
Applicant: 珠海高凌信息科技股份有限公司
IPC: G10L21/0272 , G10L21/0308 , G10L25/03 , G10L25/30
Abstract: 本申请公开了基于深度学习的声音隔离方法、装置和存储介质,本申请的方法包括获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理;构建DeepAudioSep模型并训练所述DeepAudioSep模型,所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出;通过所述DeepAudioSep模型进行声音分离。本申请将数据驱动和深度学习思想引入声音分离及噪声隔离处理,提升在环境监测领域对于声音分离及噪声隔离处理能力,因此具有广泛的噪声处理前景及实用价值。
-
公开(公告)号:CN115545093A
公开(公告)日:2022-12-30
申请号:CN202211107885.6
申请日:2022-09-13
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明公开了一种多模态数据的融合方法、系统及存储介质,方法包括:获取多模态原始数据;对文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征;对语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征;对视频数据进行序列化处理,结合循环神经网络提取得到预设维度的视频特征;对文本特征、语音特征和视频特征进行对齐拼接处理,得到预设通道的特征向量;根据特征向量,通过多核分类模型进行线性连接,得到多模态特征分类结果。本发明能够实现对文本、语音和视觉的多模态数据的统一特征提取和融合,从而促进从单模态数据到多模态数据的分析和应用,可广泛应用于数据处理技术领域。
-
-
-
-
-
-
-
-
-