-
公开(公告)号:CN112351429B
公开(公告)日:2023-08-08
申请号:CN202011137247.X
申请日:2020-10-22
Applicant: 珠海高凌信息科技股份有限公司
IPC: H04W12/12 , G06F18/214 , G06N3/09 , G06N3/0442 , H04W12/128
Abstract: 本发明公开了基于深度学习的有害信息检测方法及系统,该方法包括:S100,采集多个用户的CDR数据、XDR数据及信令数据,得到样本数据,对样本数据进行分解,提取样本特征,并存入数据集合;S200,从数据集合中提取通信节点统计及子图的相关属性和表征,并对相关属性及表征进行预处理,并划分训练集和测试集,使训练集和测试集包括一定数量的有害数据;S300,将训练集输入基于循环神经网络的深度学习模型,进行监督训练,并结合测试集对深度学习模型进行优化,得到评估模型;S400,根据评估模型进行有害信息的定位分析。本发明较大程度地提升了电话通信中的有害信息的分析实时性及准确性,并能对模型进行在线训练和持续提升。
-
公开(公告)号:CN113657453B
公开(公告)日:2023-08-01
申请号:CN202110830095.X
申请日:2021-07-22
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06F18/214 , G06N3/0464 , G06F21/56 , G06F16/9535
Abstract: 本发明涉及一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及可读介质的技术方案,包括:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了系统的实用价值。
-
公开(公告)号:CN116486830A
公开(公告)日:2023-07-25
申请号:CN202310392211.3
申请日:2023-04-12
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明提供一种环境声音描述方法、装置、电子设备及存储介质,该环境声音描述方法包括:响应于环境声音描述请求,获取第一目标环境声音,对第一目标环境声音执行预处理,得到第二目标环境声音;对第二目标环境声音采用环境声音描述模型进行识别处理,得到第一目标环境声音的描述结果;环境声音描述模型的训练包括:获取环境声音的音频数据集,对音频数据集执行音频剪辑处理,得到验证集及测试集;对验证集及测试集执行预处理,进而执行基于迁移学习处理,得到音频特征;对音频特征执行深度卷积神经网络训练处理,得到环境声音描述模型。本发明的有益效果为:提高了声源描述准确率和声源检测的扩展性。
-
公开(公告)号:CN116150320A
公开(公告)日:2023-05-23
申请号:CN202310026624.X
申请日:2023-01-09
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06F16/33 , G06F16/25 , G06F40/216 , G06F16/215 , G06F18/23213
Abstract: 本发明提供一种多模态数据集成管理方法、装置及介质,该多模态数据集成管理方法包括:对接入的第一多模态数据执行临时存储;对第一多模态数据执行预处理,得到第二多模态数据;对第二多模态数据执行提取,得到包括有数据特征、数据来源及存储位置的元数据;采用对应的数据存储方式对元数据执行存储。使用可定制算法来实现文本、声音及视觉数据的统一集成,通过使用本体模型/元模型的方式统一提取文本、声音和视觉数据的元数据,并通过对象存储辅以结构化存储方式,来实现多模态的统一存储,借助元数据和对象存储技术,实现多模态数据的高可靠、高性能访问的统一管理,使得多模态数据分析效率和准确性大大提升。
-
公开(公告)号:CN115858838A
公开(公告)日:2023-03-28
申请号:CN202211630728.3
申请日:2022-12-19
Applicant: 珠海高凌信息科技股份有限公司 , 上海大学
IPC: G06F16/535 , G06V10/774 , G06V10/82 , G06N3/0499 , G06N3/084
Abstract: 本申请公开了基于深度学习的质谱图搜索匹配方法、装置和存储介质,本申请将数据集分为训练集、验证集、测试集;对所述训练集、验证集、测试集进行数据增强;提取所述训练集的分子指纹,计算所述分子指纹的相似度分数,将所述相似度分数作为两个质谱图的真实相似度分数;将两个所述质谱图转化成质谱图向量,分别将两个质谱图向量输入到相同的前馈神经网络中,抽取质谱图的隐含特征,得到质谱图的高阶向量表示;将两个质谱图向量经过相似度计算层交互,得到两个质谱图的相似度预测分数。本申请基于在质谱谱数据库搜索引擎的结果中增强方法的能力,能够提升质谱图匹配的成功率的成份匹配的准确率。
-
公开(公告)号:CN115798510A
公开(公告)日:2023-03-14
申请号:CN202211247560.8
申请日:2022-10-12
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明公开了一种声学场景分类方法、系统、装置及存储介质,声学场景分类方法通过对声学场景声音进行数据增强处理,采用预训练的声音分类大模型对数据增强处理得到的声学场景声音序列进行特征提取,获取第一嵌入向量,并接入深度卷积神经网络对第一嵌入向量进行分类训练,得到第一模型,进而采用第一模型对声学场景声音进行分类,生成声学场景分类结果,无需依赖大量的有标签数据进行模型训练,提高了基于小样本有标签数据的声学场景分类的准确性和稳定性,并降低了训练成本。本发明可广泛应用于计算机技术领域。
-
公开(公告)号:CN115713944A
公开(公告)日:2023-02-24
申请号:CN202211335613.1
申请日:2022-10-28
Applicant: 珠海高凌信息科技股份有限公司
IPC: G10L21/0272 , G10L21/0308 , G10L25/03 , G10L25/30
Abstract: 本申请公开了基于深度学习的声音隔离方法、装置和存储介质,本申请的方法包括获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理;构建DeepAudioSep模型并训练所述DeepAudioSep模型,所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出;通过所述DeepAudioSep模型进行声音分离。本申请将数据驱动和深度学习思想引入声音分离及噪声隔离处理,提升在环境监测领域对于声音分离及噪声隔离处理能力,因此具有广泛的噪声处理前景及实用价值。
-
公开(公告)号:CN115545093A
公开(公告)日:2022-12-30
申请号:CN202211107885.6
申请日:2022-09-13
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明公开了一种多模态数据的融合方法、系统及存储介质,方法包括:获取多模态原始数据;对文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征;对语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征;对视频数据进行序列化处理,结合循环神经网络提取得到预设维度的视频特征;对文本特征、语音特征和视频特征进行对齐拼接处理,得到预设通道的特征向量;根据特征向量,通过多核分类模型进行线性连接,得到多模态特征分类结果。本发明能够实现对文本、语音和视觉的多模态数据的统一特征提取和融合,从而促进从单模态数据到多模态数据的分析和应用,可广泛应用于数据处理技术领域。
-
公开(公告)号:CN115544297A
公开(公告)日:2022-12-30
申请号:CN202211162960.9
申请日:2022-09-23
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06F16/683 , G06F16/61 , G06N5/02
Abstract: 本发明公开了一种声音数据库构建及智能检索方法、系统及存储介质,方法包括:获取原始音频数据;对原始音频数据进行数据预处理,得到声音元数据;根据原始音频数据和声音元数据,构建声音数据库及知识图谱;响应于目标对象的检索数据,基于声音数据库及知识图谱匹配返回检索结果;其中,检索数据包括检索文本和检索音频。本发明通过对原始音频数据的预处理,提取声音元数据;进而构建声音数据库及知识图谱,实现基于声音元数据以及原始音频数据声音检索的全文索引。通过声音数据库的创建,并基于知识图谱实现了基于元数据和音频数据的检索功能,能够实现包含多特性的声音检索技术,可广泛应用于数据检索技术领域。
-
公开(公告)号:CN115098806A
公开(公告)日:2022-09-23
申请号:CN202210687729.5
申请日:2022-06-17
Applicant: 珠海高凌信息科技股份有限公司
IPC: G06F16/955 , G06F16/957
Abstract: 本发明技术方案提供了一种检测有害URL的方法、系统、电子设备及存储介质,该方法包括:获取URL数据,其中,URL数据包含有害URL数据和正常URL数据;根据URL数据创建词特征,其中,词特征用于归纳URL数据所具有的特征;根据URL数据创建训练集和测试集,统计训练集中URL数据的词特征;根据训练集中URL数据的词特征构建决策树并生成随机森林模型;根据随机森林模型对测试集进行有害URL数据的识别。采用此技术方案可以提高URL检测的效率和准确度,并减少计算机的算力资源消耗。
-
-
-
-
-
-
-
-
-