-
公开(公告)号:CN108538303B
公开(公告)日:2019-10-22
申请号:CN201810366503.9
申请日:2018-04-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/007
Abstract: 本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取信噪比映射矩阵,其中,信噪比映射矩阵是基于加噪语音数据集合中的至少一条加噪语音数据的幅值分布信息和在真实场景下采集到的至少一条远场语音数据的幅值分布信息生成的矩阵,加噪语音数据是通过对近场语音数据进行加噪处理得到的;将加噪语音数据集合中的加噪语音数据作为待处理语音数据,执行以下生成步骤:确定与待处理语音数据对应的、用于表征待处理语音数据的幅值分布信息的第一向量;确定信噪比映射矩阵与第一向量的乘积,基于乘积生成远场仿真语音数据。该实施方式实现了具有较高有效性的远场仿真语音数据的生成。
-
公开(公告)号:CN108831505A
公开(公告)日:2018-11-16
申请号:CN201810538486.2
申请日:2018-05-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于识别应用的使用场景的方法和装置。该方法的一具体实施方式包括:响应于检测到目标应用的归属于预设类别的子应用被运行,对周围环境中的语音信息进行采集;对采集到的语音信息进行特征提取,将提取出的特征信息输入预先训练的场景识别模型,得到识别结果,其中,识别结果包括语音信息是在预设场景下采集的概率,场景识别模型用于表征特征信息与识别结果之间的对应关系;基于该概率,确定目标应用当前的使用场景是否为预设场景。该实施方式实现了对目标应用当前的使用场景的识别。
-
公开(公告)号:CN108648769A
公开(公告)日:2018-10-12
申请号:CN201810362694.1
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种语音活性检测方法、装置及设备。本发明的方法,通过预先由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到深度神经网络模型,将提取的待检测的音频帧的声学特征直接输入预设的深度神经网络模型,计算待检测的音频帧对应的输出节点的值,根据待检测的音频帧对应的输出节点的值,确定待检测的音频帧是否为有效语音,针对不同的应用场景和产品线,只需采用与应用场景或者产品线相对应的训练数据对深度神经网络训练,得到的深度神经网络模型能够适用于该场景或者产品线,可以适用于多种不同的场景和产品线,通用性好,并且无需对声学特征进行复杂的特征设计过程和人工调试,提高了对音频帧的识别效率。
-
公开(公告)号:CN108550364A
公开(公告)日:2018-09-18
申请号:CN201810359112.4
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06 , G10L15/16 , G10L21/0208
Abstract: 本发明实施例提供一种语音识别方法、装置、设备及存储介质。该方法包括:获取待识别的语音信号,采用预先训练的因果声学模型,根据语音信号中的当前帧和当前帧之前预设时间段内的帧,对语音信号中的当前帧进行识别,其中,因果声学模型基于因果卷积神经网络训练得到。本发明实施例提供的方法,在进行当前帧识别时,仅使用当前帧和当前帧之前的帧的信息,解决了现有技术中基于卷积神经网络的语音识别技术需要等待当前帧之后的帧而造成的硬延迟问题,提高了语音识别的实时性。
-
公开(公告)号:CN108831446B
公开(公告)日:2019-10-18
申请号:CN201810506366.4
申请日:2018-05-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。
-
公开(公告)号:CN108831446A
公开(公告)日:2018-11-16
申请号:CN201810506366.4
申请日:2018-05-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。
-
公开(公告)号:CN108538303A
公开(公告)日:2018-09-14
申请号:CN201810366503.9
申请日:2018-04-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/007
Abstract: 本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取信噪比映射矩阵,其中,信噪比映射矩阵是基于加噪语音数据集合中的至少一条加噪语音数据的幅值分布信息和在真实场景下采集到的至少一条远场语音数据的幅值分布信息生成的矩阵,加噪语音数据是通过对近场语音数据进行加噪处理得到的;将加噪语音数据集合中的加噪语音数据作为待处理语音数据,执行以下生成步骤:确定与待处理语音数据对应的、用于表征待处理语音数据的幅值分布信息的第一向量;确定信噪比映射矩阵与第一向量的乘积,基于乘积生成远场仿真语音数据。该实施方式实现了具有较高有效性的远场仿真语音数据的生成。
-
公开(公告)号:CN108831505B
公开(公告)日:2020-01-21
申请号:CN201810538486.2
申请日:2018-05-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于识别应用的使用场景的方法和装置。该方法的一具体实施方式包括:响应于检测到目标应用的归属于预设类别的子应用被运行,对周围环境中的语音信息进行采集;对采集到的语音信息进行特征提取,将提取出的特征信息输入预先训练的场景识别模型,得到识别结果,其中,识别结果包括语音信息是在预设场景下采集的概率,场景识别模型用于表征特征信息与识别结果之间的对应关系;基于该概率,确定目标应用当前的使用场景是否为预设场景。该实施方式实现了对目标应用当前的使用场景的识别。
-
公开(公告)号:CN108550364B
公开(公告)日:2019-04-30
申请号:CN201810359112.4
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06 , G10L15/16 , G10L21/0208
Abstract: 本发明实施例提供一种语音识别方法、装置、设备及存储介质。该方法包括:获取待识别的语音信号,采用预先训练的因果声学模型,根据语音信号中的当前帧和当前帧之前预设时间段内的帧,对语音信号中的当前帧进行识别,其中,因果声学模型基于因果卷积神经网络训练得到。本发明实施例提供的方法,在进行当前帧识别时,仅使用当前帧和当前帧之前的帧的信息,解决了现有技术中基于卷积神经网络的语音识别技术需要等待当前帧之后的帧而造成的硬延迟问题,提高了语音识别的实时性。
-
公开(公告)号:CN108831508A
公开(公告)日:2018-11-16
申请号:CN201810605698.8
申请日:2018-06-13
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L25/78 , G10L25/84 , G10L21/0208
Abstract: 本发明实施例提供一种语音活动检测方法、装置和设备。该方法包括:对待检测的音频信号进行平滑处理,计算经过平滑处理后的音频信号中每一帧信号的能量和过零率,根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。本发明实施例的方法,通过对包含噪声信号的音频信号进行平滑处理,使得音频信号中的噪声信号被大幅削弱,提升了语音活动检测在噪声环境中的性能。
-
-
-
-
-
-
-
-
-