-
公开(公告)号:CN110992940A
公开(公告)日:2020-04-10
申请号:CN201911168794.1
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。
-
公开(公告)号:CN107610709A
公开(公告)日:2018-01-19
申请号:CN201710648032.6
申请日:2017-08-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提供一种训练声纹识别模型的方法及系统,所述方法包括,利用第一训练数据训练深度神经网络,生成第一声纹识别模型;利用第二训练数据对所述第一声纹识别模型进行迁移学习,生成第二声纹识别模型;所述第二声纹识别模型用于进行声纹注册或认证。能够避免现有技术中为了开发一个特征场景的声纹认证算法和产品,端到端的声纹认证算法往往需要录制大量的数据,才能保证算法的性能,而这需要花费大量的时间成本和经济成本的问题。可以充分利用全量训练数据,通过迁移学习,提高了针对特定数据的声纹识别和认证的性能。
-
公开(公告)号:CN110992940B
公开(公告)日:2021-06-15
申请号:CN201911168794.1
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。
-
公开(公告)号:CN110718223A
公开(公告)日:2020-01-21
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN107704549A
公开(公告)日:2018-02-16
申请号:CN201710884466.6
申请日:2017-09-26
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F17/30681 , G06F17/30675 , G10L15/22 , G10L17/005 , G10L17/04 , G10L25/54
Abstract: 本发明提出一种语音搜索方法、装置及计算机设备,其中方法包括:获取待搜索的语音信息;对语音信息进行特征提取,获取语音信息中的特征信息;采用各个类型模型对特征信息进行识别,确定语音信息的类型;类型包括:男声、女声和童声;类型模型包括:男声类型模型、女声类型模型以及童声类型模型;根据语音信息的类型采用对应的识别模型对特征信息进行识别,获取语音信息对应的文本信息;根据语音信息对应的文本信息进行搜索,获取与语音信息对应的搜索结果,从而能够采用各个类型模型对语音信息中的特征信息进行类型识别,以及采用类型的识别模型对特征信息进行识别,能够对男声、女声以及童声针对性的进行识别,提高语音识别的准确率。
-
公开(公告)号:CN107180628A
公开(公告)日:2017-09-19
申请号:CN201710361210.7
申请日:2017-05-19
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/02 , G10L15/063 , G10L15/16
Abstract: 本发明提供了一种建立声学特征提取模型的方法、提取声学特征的方法、装置。其中建立声学特征提取模型的方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深度神经网络的训练目标为:最大化相同用户的第二声学特征之间的相似度且最小化不同用户的第二声学特征之间的相似度。本发明的声学特征提取模型能够自学习到达到训练目标的最优声学特征。相比较现有预设特征类型和变换方式的声学特征提取方式,实现更加灵活,准确性更高。
-
公开(公告)号:CN107610706A
公开(公告)日:2018-01-19
申请号:CN201710822725.2
申请日:2017-09-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了语音搜索结果的处理方法和处理装置。该方法的一具体实施方式包括:接收用户输入的语音信息,并提取语音信息的声学特征;基于声学特征,提取语音信息的辨识矢量i-vector特征;将i-vector特征在预先训练的判别模型中进行识别,其中,判别模型用于识别语音信息所对应的用户的身份信息;基于判别模型的识别结果,对获取到的与语音信息相关的搜索结果进行处理。该实施方式可以使搜索结果更加符合用户的需求,从而改善用户的搜索体验。
-
公开(公告)号:CN107221320A
公开(公告)日:2017-09-29
申请号:CN201710359207.1
申请日:2017-05-19
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/02 , G10L15/063 , G10L15/16 , G10L25/30
Abstract: 本发明提供了一种训练声学特征提取模型的方法、装置、设备和计算机存储介质,其中方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;基于分类误差最小准则训练基于深度神经网络的初始模型,直至达到预设的第一停止条件;利用三元组损失层替换所述初始模型中的Softmax层,构成声学特征提取模型,并继续训练所述声学特征提取模型,直至达到预设的第二停止条件,所述声学特征提取模型用于输出语音数据的第二声学特征;其中所述三元组损失层用于最大化相同用户的第二声学特征之间的相似度且最小化不同用户的第二声学特征之间的相似度。
-
公开(公告)号:CN107610709B
公开(公告)日:2021-03-19
申请号:CN201710648032.6
申请日:2017-08-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提供一种训练声纹识别模型的方法及系统,所述方法包括,利用第一训练数据训练深度神经网络,生成第一声纹识别模型;利用第二训练数据对所述第一声纹识别模型进行迁移学习,生成第二声纹识别模型;所述第二声纹识别模型用于进行声纹注册或认证。能够避免现有技术中为了开发一个特征场景的声纹认证算法和产品,端到端的声纹认证算法往往需要录制大量的数据,才能保证算法的性能,而这需要花费大量的时间成本和经济成本的问题。可以充分利用全量训练数据,通过迁移学习,提高了针对特定数据的声纹识别和认证的性能。
-
公开(公告)号:CN110718223B
公开(公告)日:2021-02-12
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
-
-
-
-
-
-
-
-