-
公开(公告)号:CN109637549A
公开(公告)日:2019-04-16
申请号:CN201811525556.7
申请日:2018-12-13
Applicant: 北京小龙潜行科技有限公司
CPC classification number: G10L17/26 , A01K29/005 , G10L17/04
Abstract: 本发明的实施例公开了一种对猪只进行声音检测的方法、装置和检测系统,通过对猪群的声音进行监测及时发现猪群中出现的异常活动。该方法通过深度学习训练出声音识别模型,声音识别模型能识别出输入的声音数据所属的声音类别。通过安装在群养栏周围的声音采集设备采集群养栏内的声音,得到该群养栏内猪只发出的目标声音数据,由训练的声音识别模型对目标声音数据所属的声音类别进行识别,输出识别的声音类别。工作人员能够通过识别出的声音类别判断群养栏中猪只是否存在异常情况,以便及时采取措施,降低损失。
-
公开(公告)号:CN109584885A
公开(公告)日:2019-04-05
申请号:CN201811270789.7
申请日:2018-10-29
Applicant: 李典
Inventor: 李典
CPC classification number: G10L17/02 , G10L17/04 , G10L17/10 , G10L17/14 , G10L17/16 , G10L17/22 , G10L25/63
Abstract: 本发明涉及一种基于多模情感识别技术的音视频输出方法,属于智能识别技术领域。该基于多模情感识别技术的音视频输出方法中将多级信息融合的思想引入到多源信号对情感识别系统特征语义表达的分析过程中,突破常规策略中从单一融合阶段考虑数据流变化对特征描述准确性和可靠性的影响,提出分级融合的计算和分析方法,基于核熵成分分析及最大相关熵校准算法解决多模态生物信号对交互系统的影响及智能情感识别技术中的理论、建模及优化方法问题。总之,该基于多模情感识别技术的音视频输出方法结构设计合理,输出准确,适合推广使用。
-
公开(公告)号:CN109346084A
公开(公告)日:2019-02-15
申请号:CN201811092136.4
申请日:2018-09-19
Applicant: 湖北工业大学
CPC classification number: G10L17/005 , G10L17/02 , G10L17/04 , G10L17/18 , G10L17/22
Abstract: 本发明涉及一种基于深度堆栈自编码网络的说话人识别方法,S1:说话人特征提取;S2:堆栈自编码器的网络设计;S3:说话人识别与决策。本发明与传统说话人识别相比,将深度堆栈自编码网络与说话人识别系统模型相融合,结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果,本发明的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强。
-
公开(公告)号:CN108806697A
公开(公告)日:2018-11-13
申请号:CN201710302853.4
申请日:2017-05-02
Applicant: 申子健
Abstract: 基于UBM和SVM的说话人身份识别系统。系统包括:语音格式转换,目的是将原始的语音信号转为适合开发环境的格式;均值特征向量提取系统,目的是便于应用于SVM的计算环境;向量机得分计算系统,主要功能是完成测试语音和训练语音的匹配,从而确定说话人的身份。
-
公开(公告)号:CN108806668A
公开(公告)日:2018-11-13
申请号:CN201810590276.8
申请日:2018-06-08
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
IPC: G10L15/02 , G10L15/06 , G10L15/08 , G10L15/26 , G10L17/02 , G10L17/04 , G10L17/22 , G10L21/0272 , G10L25/87
CPC classification number: G10L15/02 , G10L15/063 , G10L15/08 , G10L15/26 , G10L17/02 , G10L17/04 , G10L17/22 , G10L21/0272 , G10L25/87
Abstract: 本发明公开一种音视频多维度标注与模型优化方法,具体包括如下步骤:首先进行样本管理与分拣,针对输入系统的样本数据进行去重,编号,建立样本标注任务库;音频数据预处理阶段,将任务库的视频数据进行音频抽取,同时完成对音频数据的预处理操作;音频内容分析与特征提取阶段,在完成音频预处理后,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤304:视频内容分析与特征提取阶段,通过对视频内容进行图像分析,并依据后台已配置的标注规范体系进行深度分析输出标签数据;步骤305:特征融合与标签生成,将识别特征与标签信息融合,输出该样本的标签结果;人工复核与模型优化,系统产生的标签结果数据会经由人工进行复核确认。
-
公开(公告)号:CN107924682A
公开(公告)日:2018-04-17
申请号:CN201680028481.4
申请日:2016-07-27
Applicant: 谷歌有限责任公司
Inventor: 乔治·海戈尔德 , 萨米·本希奥 , 伊格纳西奥·洛佩斯·莫雷诺
Abstract: 本文大体上描述与说话者验证有关的系统、方法、装置、和其它技术,包括:(i)训练用于说话者验证模型的神经网络,(ii)在客户端装置处登记用户,以及(iii)基于所述用户的声音的特点来验证用户的身份。一些实施方式包括计算机实现的方法。所述方法可以包括:在计算装置处接收表征所述计算装置的用户的话语的数据。可以使用所述计算装置上的神经网络在所述计算装置处针对所述话语生成说话者表示。可以基于多个训练样本来训练神经网络,所述多个训练样本中的每个:(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)被标记为匹配说话者样本或者非匹配说话者样本。
-
公开(公告)号:CN107886955A
公开(公告)日:2018-04-06
申请号:CN201610865036.5
申请日:2016-09-29
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例公开了一种语音会话样本的身份识别方法、装置及设备。该方法包括:识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。本发明实施例的技术方案,实现了对语音会话样本中不同会话语句所属用户的身份识别,为后续为不同身份用户提供个性化服务奠定了基础。
-
公开(公告)号:CN107871497A
公开(公告)日:2018-04-03
申请号:CN201610847843.4
申请日:2016-09-23
Applicant: 北京眼神科技有限公司
Abstract: 本发明公开了一种语音识别方法和装置。该方法包括:确定训练语音信号和与训练语音信号对应的语义标签;将训练语音信号输入第一神经网络模型得到语音特征向量;将语义标签输入第二神经网络模型得到语义特征向量;根据语音特征向量和语义特征向量训练第一神经网络模型中目标参数的参数值;根据训练后的第一神经网络模型识别目标语音信号,其中,在训练后的第一神经网络模型中目标参数的值为训练后的参数值。通过本发明,解决了相关技术中的训练语音识别模型的收敛速度较慢的问题。
-
公开(公告)号:CN107705792A
公开(公告)日:2018-02-16
申请号:CN201711227504.7
申请日:2017-11-29
Applicant: 宁波高新区锦众信息科技有限公司
Inventor: 王国亮
CPC classification number: G10L17/00 , G10L15/02 , G10L15/06 , G10L15/08 , G10L17/02 , G10L17/04 , G10L17/14 , G10L25/24
Abstract: 本发明公开了一种基于声纹模型训练的机器人语音识别控制方法,其特征在于,所述方法包括:接收用户的语音数据;判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。上述技术方案的有益效果:可通过声纹认证对用户进行身份认证,同时也提供了针对非特定人的语音识别方法,用户可自主选择不同的语音识别模式以满足不同的需求。
-
公开(公告)号:CN107680583A
公开(公告)日:2018-02-09
申请号:CN201710917953.8
申请日:2017-09-27
Applicant: 安徽硕威智能科技有限公司
Inventor: 王冬
CPC classification number: G10L15/02 , G10L15/063 , G10L15/142 , G10L17/02 , G10L17/04 , G10L17/16
Abstract: 本发明公开了一种语音识别系统及方法,包括:语音预处理模块,其包括语音监测模块和信号增强模块,语音监测模块分别与声音输入设备和语音增强模块电性连接;模型处理模块,其包括控制单元、DWT模型处理模块和HMM模型处理模块,控制单元分别与DWT模型处理模块、HMM模型处理模块、MFCC参数特征处理模块和识别结果显示模块电性连接;模型数据库,其包括DWT模型数据库和HMM模型数据库。本发明采用DWT模式识别和HMM模式识别综合识别并配有DWT模型数据库和HMM模型数据库可以区别识别管理员和普通用户的语音;同时通过从DWT模式识别结果中选出优选特征向量经DWT模型训练后存储DWT模型数据库,以避免管理员因为年龄变化或声音渐变而降低语音识别正确率的弊端。
-
-
-
-
-
-
-
-
-