-
公开(公告)号:CN108564963A
公开(公告)日:2018-09-21
申请号:CN201810367680.9
申请日:2018-04-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L21/0232 , G10L21/0208
Abstract: 本申请实施例公开了用于增强语音的方法和装置。该方法的一具体实施方式包括:获取麦克风阵列采集的多个通道的时域语音;基于多个通道的时域语音,生成至少一个通道的频域语音;对至少一个通道的频域语音进行分析,得到至少一个通道的频域语音的归一化增强系数;利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;对至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。该实施方式实现了富于针对性地语音增强,有助于消除语音中的噪声和室内混响,提高语音识别的准确度。
-
公开(公告)号:CN106941538A
公开(公告)日:2017-07-11
申请号:CN201710339955.3
申请日:2017-05-15
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了信息显示系统、方法和装置。该系统的一具体实施方式包括:应用服务器,用于响应于接收到第一客户端发送的、包含网址和使用第一客户端的用户的用户信息的页面获取请求,提取网址所对应的页面数据,并向信息管理服务器发送包含用户信息的虚拟现实信息获取请求;信息管理服务器,用于响应于确定用户满足预设条件,向应用服务器返回与预设条件相匹配的虚拟现实信息;第一客户端,用于响应于接收到应用服务器返回的页面数据和虚拟现实信息,对页面数据和虚拟现实信息进行解析,生成虚拟现实摘要信息,并显示包含虚拟现实摘要信息的页面。该实施方式提高了信息显示的灵活性。
-
公开(公告)号:CN106303955A
公开(公告)日:2017-01-04
申请号:CN201610641407.1
申请日:2016-08-05
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: H04W4/023 , H04W4/021 , H04W48/16 , H04W64/003 , H04W84/042 , G06F17/3087
Abstract: 本发明的目的是提供一种用于对无线热点和POI进行匹配的方法和装置。根据本发明的方法包括以下步骤:基于用户已扫描的各个无线热点的热点扫描信息,获取所述用户所在的无线热点的位置信息;根据所述位置信息,获取该无线热点附近的一个或多个候选POI;基于对应于所述无线热点和所述各个候选POI的特征信息,对各个候选POI进行排序,从而确定与该无线热点相匹配的POI,其中,所述特征信息包括到访特征信息。与现有技术相比,本发明具有以下优点:基于用户扫描无线热点的相关数据得到与无线热点相匹配的POI,来预测用户实际到访过的POI,而无需人工采集数据或用户反馈的过程,提升了效率。
-
公开(公告)号:CN106128464A
公开(公告)日:2016-11-16
申请号:CN201610409454.3
申请日:2016-06-12
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种通用背景模型UBM分字模型的建立方法、基于该UBM分字模型的声纹特征生成方法以及装置。其中UBM分字模型的建立方法包括:提取训练语音的声学特征,并对训练语音进行语音识别以获取训练语音中的各个字符;从训练语音的声学特征中确定各个字符的声学特征;针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型;针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。该方法分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum‑Welch统计量,进而可以得到精确的声纹模型。
-
公开(公告)号:CN105656887A
公开(公告)日:2016-06-08
申请号:CN201511020415.6
申请日:2015-12-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04L29/06
CPC classification number: G10L17/22 , G06F16/686 , G06N5/022 , G06N7/005 , G06N20/10 , G06N20/20 , G10L17/04 , G10L17/06 , G10L17/24 , H04L63/0861 , G10L17/00 , H04L63/0807 , H04L63/0815 , H04L63/083 , H04L65/1073
Abstract: 本发明公开了一种基于人工智能的声纹认证方法以及装置,其中,该方法包括:接收用户的注册请求,并将注册字符串提供至用户;接收用户阅读注册字符串的语音信息,并根据语音信息生成N段语音,其中,N为正整数;根据性别分类模型和N段语音确定用户的性别标签;以及根据性别标签和N段语音生成用户的注册声纹模型。实现了在注册的过程中,通过先获取该用户的性别标签,之后根据该性别标签使用不同的模型以生成对应的注册声纹模型,使得在登录时提高了声纹密码作为认证手段的可用性,提高了声纹匹配的性能,并使得用户通过语音即可完成注册,简化了用户的操作步骤。
-
公开(公告)号:CN107067003B
公开(公告)日:2021-09-21
申请号:CN201710138011.X
申请日:2017-03-09
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了一种感兴趣区域边界的提取方法、装置、设备和计算机存储介质,其中感兴趣区域边界的提取方法包括:获取包含感兴趣区域的卫星图像以及路网底图;将所述获取的卫星图像与路网底图进行融合,得到融合数据;利用二值化处理模型对所述融合数据进行二值化处理,得到二值化图像,其中,二值化处理模型是预先根据训练数据训练得到;提取所述二值化图像的边界作为所述感兴趣区域的边界。本发明通过获取包含感兴趣区域的卫星图像以及路网底图,将卫星图像与路网底图融合形成的数据输入二值化处理模型中,从而减少边界提取成本,实现自动、精准地提取感兴趣区域的边界。
-
公开(公告)号:CN107610709B
公开(公告)日:2021-03-19
申请号:CN201710648032.6
申请日:2017-08-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提供一种训练声纹识别模型的方法及系统,所述方法包括,利用第一训练数据训练深度神经网络,生成第一声纹识别模型;利用第二训练数据对所述第一声纹识别模型进行迁移学习,生成第二声纹识别模型;所述第二声纹识别模型用于进行声纹注册或认证。能够避免现有技术中为了开发一个特征场景的声纹认证算法和产品,端到端的声纹认证算法往往需要录制大量的数据,才能保证算法的性能,而这需要花费大量的时间成本和经济成本的问题。可以充分利用全量训练数据,通过迁移学习,提高了针对特定数据的声纹识别和认证的性能。
-
公开(公告)号:CN108962227B
公开(公告)日:2020-06-30
申请号:CN201810587380.1
申请日:2018-06-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了语音起点和终点检测方法、装置、计算机设备及存储介质,其中方法包括:获取待检测的语音数据;将语音数据分割为语音片段,语音片段数大于一;基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态;根据语音状态确定出语音数据的起点和终点。应用本发明所述方案,能够提高检测结果的准确性等。
-
公开(公告)号:CN109036460B
公开(公告)日:2020-01-07
申请号:CN201810990242.8
申请日:2018-08-28
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 李超
IPC: G10L25/30 , G10L25/78 , G10L25/84 , G10L21/0308
Abstract: 本发明提供一种基于多模型神经网络的语音处理方法和装置,包括:获取目标语音帧中的声学特征,将该声学特征分别作为N个第一神经网络模型的输入参数,得到N个第一掩蔽阈值,该N个第一神经网络模型均不同,将声学特征作为第二神经网络模型的输入参数,得到N个权重,该N个权重与该N个第一掩蔽阈值一一对应,根据N个权重和N个第一掩蔽阈值,得到第二掩蔽阈值,根据第二掩蔽阈值对该声学特征进行处理,得到目标语音帧的源信号的估计值。通过多个不同的第一神经网络模型得到多个不同的第一掩蔽阈值,进而对多个第一掩蔽阈值进行处理得到最终的掩蔽阈值,从而提高了掩蔽阈值的准确度,使得盲源分离的效果更佳。
-
公开(公告)号:CN110647305A
公开(公告)日:2020-01-03
申请号:CN201910932670.X
申请日:2019-09-29
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F3/16
Abstract: 本申请实施例公开了一种应用程序的语音交互方法、装置、设备和介质,涉及语音技术领域。具体实现方案为:响应关于应用程序的语音指令注册请求,获取应用程序在目标程序状态下支持的注册语音指令集合,其中,注册语音指令集合中包括语音指令和与每个语音指令对应的应用程序可识别的回调指令;获取在目标程序状态下,针对应用程序的用户语音指令;将用户语音指令在注册语音指令集合中进行匹配,确定用户语音指令对应的回调指令;向应用程序发送回调指令,以使得应用程序根据回调指令执行与用户语音指令相匹配的操作。本申请实施例可以提高对用户语音指令的响应准确率,简化各应用程序的语音交互功能的实现过程。
-
-
-
-
-
-
-
-
-