-
公开(公告)号:CN117573897B
公开(公告)日:2024-12-24
申请号:CN202311340747.7
申请日:2023-10-16
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种多媒体资源检索方法、装置、设备及存储介质,应用于对接多个流量平台的多媒体资源检索系统,多媒体资源检索系统中部署存储系统和多个任务调度器,多个任务调度器与多个流量平台一一对应,多个任务调度器共享存储系统中存储的多媒体资源,该方法包括:接收来自目标流量平台的资源检索请求,目标流量平台为多个流量平台中的一个或者多个流量平台;基于存储系统存储的多媒体资源,通过存储系统和目标流量平台对应的目标任务调度器进行多媒体资源检索,得到针对目标流量平台的目标多媒体资源;向目标流量平台返回目标多媒体资源。从而,通过一个检索系统为多个流量平台提供多媒体资源检索服务,提高了资源检索效率。
-
公开(公告)号:CN117573897A
公开(公告)日:2024-02-20
申请号:CN202311340747.7
申请日:2023-10-16
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种多媒体资源检索方法、装置、设备及存储介质,应用于对接多个流量平台的多媒体资源检索系统,多媒体资源检索系统中部署存储系统和多个任务调度器,多个任务调度器与多个流量平台一一对应,多个任务调度器共享存储系统中存储的多媒体资源,该方法包括:接收来自目标流量平台的资源检索请求,目标流量平台为多个流量平台中的一个或者多个流量平台;基于存储系统存储的多媒体资源,通过存储系统和目标流量平台对应的目标任务调度器进行多媒体资源检索,得到针对目标流量平台的目标多媒体资源;向目标流量平台返回目标多媒体资源。从而,通过一个检索系统为多个流量平台提供多媒体资源检索服务,提高了资源检索效率。
-
公开(公告)号:CN108665889B
公开(公告)日:2021-09-28
申请号:CN201810361475.1
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质,通过获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。从而在确保语音信号端点检测准确性的同时,降低了计算量。
-
公开(公告)号:CN109697978B
公开(公告)日:2021-04-20
申请号:CN201811549163.X
申请日:2018-12-18
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 李超
Abstract: 本申请实施例公开了用于生成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。该实施方式丰富了模型的训练方式,有助于提高语音端点识别的准确度。
-
公开(公告)号:CN106782501B
公开(公告)日:2020-07-24
申请号:CN201611238959.4
申请日:2016-12-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于人工智能的语音特征提取方法和装置,其中,方法包括:通过对待识别语音进行频谱分析,得到待识别语音的语谱图之后,利用VGG卷积神经网络对语谱图进行特征提取,得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述,而VGG卷积神经网络又是一种对图像进行处理的有效方式,因此,采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时,能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。
-
公开(公告)号:CN109036471B
公开(公告)日:2020-06-30
申请号:CN201810948464.3
申请日:2018-08-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语音端点检测方法及设备,该方法通过对待检测语音进行分帧处理,得到多个待检测音帧,获取各所述待检测音帧的声学特征,并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型;所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率,使得该VAD模型可以准确的对各待检测音帧的声学特征进行分类,进而根据所述VAD模型的输出结果确定语音段的起点和终点,能够提高语音端点检测的准确率。
-
公开(公告)号:CN109637525B
公开(公告)日:2020-06-09
申请号:CN201910075039.2
申请日:2019-01-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本公开的实施例公开了用于生成车载声学模型的方法和装置。该方法的一具体实施方式包括:从预先训练的声学模型组中选择声学模型作为初始声学模型;获取预先生成的训练样本集,其中,训练样本包括样本车载语音数据和对应于样本车载语音数据的样本车载语音识别结果;基于初始声学模型,将训练样本集中的训练样本中的样本车载语音数据作为输入,将与输入的样本车载语音数据相对应的样本车载语音识别结果,作为期望输出,训练得到车载声学模型。该实施方式丰富了模型的生成方式。
-
公开(公告)号:CN106887225B
公开(公告)日:2020-04-07
申请号:CN201710172622.6
申请日:2017-03-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种基于卷积神经网络的声学特征提取方法、装置和终端设备,该基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。
-
公开(公告)号:CN109036459B
公开(公告)日:2019-12-27
申请号:CN201810959142.9
申请日:2018-08-22
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种语音端点检测方法、装置、计算机设备和计算机可读存储介质。语音端点检测方法,可以包括:针对待检测语音帧,设置卷积神经网络的卷积层的层数;根据所述卷积层的层数设置每层卷积层的步长,其中至少一个所述步长大于1;根据所述每层卷积层的步长,确定所述待检测语音帧的跳帧数。在待检测语音帧进行跳帧检测的情况下,可以大幅度减少电子设备例如计算机设备中的中央处理器的计算量,从而大幅度降低了电子设备的功耗。
-
公开(公告)号:CN108831446B
公开(公告)日:2019-10-18
申请号:CN201810506366.4
申请日:2018-05-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。
-
-
-
-
-
-
-
-
-