语音交互的方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN110992940A

    公开(公告)日:2020-04-10

    申请号:CN201911168794.1

    申请日:2019-11-25

    Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。

    一种训练声纹识别模型的方法及系统

    公开(公告)号:CN107610709A

    公开(公告)日:2018-01-19

    申请号:CN201710648032.6

    申请日:2017-08-01

    Inventor: 马啸空 李超 蒋兵

    Abstract: 本申请提供一种训练声纹识别模型的方法及系统,所述方法包括,利用第一训练数据训练深度神经网络,生成第一声纹识别模型;利用第二训练数据对所述第一声纹识别模型进行迁移学习,生成第二声纹识别模型;所述第二声纹识别模型用于进行声纹注册或认证。能够避免现有技术中为了开发一个特征场景的声纹认证算法和产品,端到端的声纹认证算法往往需要录制大量的数据,才能保证算法的性能,而这需要花费大量的时间成本和经济成本的问题。可以充分利用全量训练数据,通过迁移学习,提高了针对特定数据的声纹识别和认证的性能。

    语音交互的方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN110992940B

    公开(公告)日:2021-06-15

    申请号:CN201911168794.1

    申请日:2019-11-25

    Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。

    语音搜索方法、装置及计算机设备

    公开(公告)号:CN107704549A

    公开(公告)日:2018-02-16

    申请号:CN201710884466.6

    申请日:2017-09-26

    Abstract: 本发明提出一种语音搜索方法、装置及计算机设备,其中方法包括:获取待搜索的语音信息;对语音信息进行特征提取,获取语音信息中的特征信息;采用各个类型模型对特征信息进行识别,确定语音信息的类型;类型包括:男声、女声和童声;类型模型包括:男声类型模型、女声类型模型以及童声类型模型;根据语音信息的类型采用对应的识别模型对特征信息进行识别,获取语音信息对应的文本信息;根据语音信息对应的文本信息进行搜索,获取与语音信息对应的搜索结果,从而能够采用各个类型模型对语音信息中的特征信息进行类型识别,以及采用类型的识别模型对特征信息进行识别,能够对男声、女声以及童声针对性的进行识别,提高语音识别的准确率。

    建立声学特征提取模型的方法、提取声学特征的方法、装置

    公开(公告)号:CN107180628A

    公开(公告)日:2017-09-19

    申请号:CN201710361210.7

    申请日:2017-05-19

    CPC classification number: G10L15/02 G10L15/063 G10L15/16

    Abstract: 本发明提供了一种建立声学特征提取模型的方法、提取声学特征的方法、装置。其中建立声学特征提取模型的方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深度神经网络的训练目标为:最大化相同用户的第二声学特征之间的相似度且最小化不同用户的第二声学特征之间的相似度。本发明的声学特征提取模型能够自学习到达到训练目标的最优声学特征。相比较现有预设特征类型和变换方式的声学特征提取方式,实现更加灵活,准确性更高。

    语音搜索结果的处理方法和处理装置

    公开(公告)号:CN107610706A

    公开(公告)日:2018-01-19

    申请号:CN201710822725.2

    申请日:2017-09-13

    Inventor: 蒋兵 马啸空

    Abstract: 本申请实施例公开了语音搜索结果的处理方法和处理装置。该方法的一具体实施方式包括:接收用户输入的语音信息,并提取语音信息的声学特征;基于声学特征,提取语音信息的辨识矢量i-vector特征;将i-vector特征在预先训练的判别模型中进行识别,其中,判别模型用于识别语音信息所对应的用户的身份信息;基于判别模型的识别结果,对获取到的与语音信息相关的搜索结果进行处理。该实施方式可以使搜索结果更加符合用户的需求,从而改善用户的搜索体验。

    一种训练声纹识别模型的方法及系统

    公开(公告)号:CN107610709B

    公开(公告)日:2021-03-19

    申请号:CN201710648032.6

    申请日:2017-08-01

    Inventor: 马啸空 李超 蒋兵

    Abstract: 本申请提供一种训练声纹识别模型的方法及系统,所述方法包括,利用第一训练数据训练深度神经网络,生成第一声纹识别模型;利用第二训练数据对所述第一声纹识别模型进行迁移学习,生成第二声纹识别模型;所述第二声纹识别模型用于进行声纹注册或认证。能够避免现有技术中为了开发一个特征场景的声纹认证算法和产品,端到端的声纹认证算法往往需要录制大量的数据,才能保证算法的性能,而这需要花费大量的时间成本和经济成本的问题。可以充分利用全量训练数据,通过迁移学习,提高了针对特定数据的声纹识别和认证的性能。

Patent Agency Ranking