-
公开(公告)号:CN108648769A
公开(公告)日:2018-10-12
申请号:CN201810362694.1
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种语音活性检测方法、装置及设备。本发明的方法,通过预先由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到深度神经网络模型,将提取的待检测的音频帧的声学特征直接输入预设的深度神经网络模型,计算待检测的音频帧对应的输出节点的值,根据待检测的音频帧对应的输出节点的值,确定待检测的音频帧是否为有效语音,针对不同的应用场景和产品线,只需采用与应用场景或者产品线相对应的训练数据对深度神经网络训练,得到的深度神经网络模型能够适用于该场景或者产品线,可以适用于多种不同的场景和产品线,通用性好,并且无需对声学特征进行复杂的特征设计过程和人工调试,提高了对音频帧的识别效率。
-
公开(公告)号:CN108550364A
公开(公告)日:2018-09-18
申请号:CN201810359112.4
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06 , G10L15/16 , G10L21/0208
Abstract: 本发明实施例提供一种语音识别方法、装置、设备及存储介质。该方法包括:获取待识别的语音信号,采用预先训练的因果声学模型,根据语音信号中的当前帧和当前帧之前预设时间段内的帧,对语音信号中的当前帧进行识别,其中,因果声学模型基于因果卷积神经网络训练得到。本发明实施例提供的方法,在进行当前帧识别时,仅使用当前帧和当前帧之前的帧的信息,解决了现有技术中基于卷积神经网络的语音识别技术需要等待当前帧之后的帧而造成的硬延迟问题,提高了语音识别的实时性。
-
公开(公告)号:CN105336324B
公开(公告)日:2018-04-03
申请号:CN201510792176.X
申请日:2015-11-17
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供了一种语种识别方法及装置。一方面,本发明实施例通过接收到语音信号包含的第N个语音片段之后,根据已经接收到的前N个语音片段,进行语种识别,以获得至少一个语种中每个语种的得分,N的取值为2、3、4、……;从而,若存在得分达到指定阈值的语种,将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。因此,本发明实施例提供的技术方案解决了现有技术中语种识别的效率比较低,使语种识别无法应用于需要快速获得识别结果的应用场景中的问题。
-
公开(公告)号:CN107481731A
公开(公告)日:2017-12-15
申请号:CN201710648063.1
申请日:2017-08-01
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L21/0264
Abstract: 本申请提供一种语音数据增强方法及系统,所述方法包括:估计远场环境下的冲激响应函数;利用所述冲激响应函数,对近场语音训练数据进行滤波处理;对滤波处理后得到的数据进行加噪处理,得到远场语音训练数据。能够避免现有技术中录制远场语音训练数据需要花费大量的时间成本和经济成本的问题;减少获取远场语音训练数据的时间和经济成本。
-
公开(公告)号:CN107180628A
公开(公告)日:2017-09-19
申请号:CN201710361210.7
申请日:2017-05-19
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/02 , G10L15/063 , G10L15/16
Abstract: 本发明提供了一种建立声学特征提取模型的方法、提取声学特征的方法、装置。其中建立声学特征提取模型的方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深度神经网络的训练目标为:最大化相同用户的第二声学特征之间的相似度且最小化不同用户的第二声学特征之间的相似度。本发明的声学特征提取模型能够自学习到达到训练目标的最优声学特征。相比较现有预设特征类型和变换方式的声学特征提取方式,实现更加灵活,准确性更高。
-
公开(公告)号:CN107067003A
公开(公告)日:2017-08-18
申请号:CN201710138011.X
申请日:2017-03-09
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06K9/6288 , G06K9/3233 , G06K9/4604 , G06K9/6256 , G06K2009/366
Abstract: 本发明提供了一种感兴趣区域边界的提取方法、装置、设备和计算机存储介质,其中感兴趣区域边界的提取方法包括:获取包含感兴趣区域的卫星图像以及路网底图;将所述获取的卫星图像与路网底图进行融合,得到融合数据;利用二值化处理模型对所述融合数据进行二值化处理,得到二值化图像,其中,二值化处理模型是预先根据训练数据训练得到;提取所述二值化图像的边界作为所述感兴趣区域的边界。本发明通过获取包含感兴趣区域的卫星图像以及路网底图,将卫星图像与路网底图融合形成的数据输入二值化处理模型中,从而减少边界提取成本,实现自动、精准地提取感兴趣区域的边界。
-
公开(公告)号:CN105096121B
公开(公告)日:2017-07-25
申请号:CN201510358723.3
申请日:2015-06-25
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L17/24 , G06F21/32 , G06Q20/40145 , G10L15/10 , G10L17/005
Abstract: 本发明提出一种声纹认证方法和装置,该声纹认证方法包括:向用户展示字符串,所述字符串中包括所述用户设置的偏好字符,所述用户设置的偏好字符在所述字符串中显示为所述偏好字符对应的符号;获得所述用户朗诵所述字符串的语音;获得所述语音的声纹识别向量;将所述语音的声纹识别向量与所述用户注册的声纹识别向量进行对比,确定声纹认证结果。本发明通过比对用户的声纹对用户的身份进行认证,提高了支付的安全性,并且不需要用户输入密码,也无需验证密码,提高了使用过程的便利性和支付效率,按照用户偏好隐藏的字符满足了用户不希望密码被明文显示的心理需求,增强了用户体验,并且提高了声纹密码的可用性。
-
公开(公告)号:CN106710589A
公开(公告)日:2017-05-24
申请号:CN201611239071.2
申请日:2016-12-28
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/02 , G06K9/4628 , G06K9/6274 , G06N3/04 , G06N3/0454 , G06N3/08 , G10L15/16 , G10L15/22 , G10L15/24 , G10L15/30 , G10L25/18
Abstract: 本发明提出一种基于人工智能的语音特征提取方法及装置,其中,方法包括:对待识别语音进行频谱分析,得到待识别语音的语谱图,利用图像识别算法中的Inception卷积结构,对语谱图进行特征提取,得到待识别语音的语音特征。本发明中,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。
-
公开(公告)号:CN104967622B
公开(公告)日:2017-04-05
申请号:CN201510372778.X
申请日:2015-06-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于声纹的通讯方法、装置和系统,该基于声纹的通讯方法包括向服务端发送第一信息,并接收所述服务端发送的标识信息,所述标识信息是所述服务端接收到所述第一信息后生成的,所述第一信息是用户账号信息和语音信息中的一种;向所述服务端发送第二信息和所述标识信息,所述第二信息是所述用户账号信息和所述语音信息中的另一种。该方法能够提高基于声纹通讯的安全性。
-
公开(公告)号:CN106504768A
公开(公告)日:2017-03-15
申请号:CN201610921879.2
申请日:2016-10-21
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: H04M3/42059 , G06N3/0445 , G06N3/0454 , G06N3/08 , G10L25/30 , G10L25/51 , G10L25/78 , H04M3/26 , H04M2203/2027 , G10L17/08
Abstract: 本发明提出一种基于人工智能的电话拨测音频分类方法及装置,其中,该方法包括:获取电话拨测音频数据;利用预设的分类器,对所述电话拨测音频数据进行处理,确定所述电话拨测音频与各类型的相似度,其中,所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型,确定的深度学习模型;根据所述电话拨测音频与各类型的相似度,确定所述电话拨测音频对应的电话类型。通过本发明提供的基于人工智能的电话拨测音频分类方法及装置,实现了利用机器学习的方法,对电话拨测音频进行分类,以确认用户是否是正常用户,从而节省了人工成本,提高了拨测效率。
-
-
-
-
-
-
-
-
-