多媒体资源检索方法、装置、设备及存储介质

    公开(公告)号:CN117573897B

    公开(公告)日:2024-12-24

    申请号:CN202311340747.7

    申请日:2023-10-16

    Abstract: 本公开提供了一种多媒体资源检索方法、装置、设备及存储介质,应用于对接多个流量平台的多媒体资源检索系统,多媒体资源检索系统中部署存储系统和多个任务调度器,多个任务调度器与多个流量平台一一对应,多个任务调度器共享存储系统中存储的多媒体资源,该方法包括:接收来自目标流量平台的资源检索请求,目标流量平台为多个流量平台中的一个或者多个流量平台;基于存储系统存储的多媒体资源,通过存储系统和目标流量平台对应的目标任务调度器进行多媒体资源检索,得到针对目标流量平台的目标多媒体资源;向目标流量平台返回目标多媒体资源。从而,通过一个检索系统为多个流量平台提供多媒体资源检索服务,提高了资源检索效率。

    多媒体资源检索方法、装置、设备及存储介质

    公开(公告)号:CN117573897A

    公开(公告)日:2024-02-20

    申请号:CN202311340747.7

    申请日:2023-10-16

    Abstract: 本公开提供了一种多媒体资源检索方法、装置、设备及存储介质,应用于对接多个流量平台的多媒体资源检索系统,多媒体资源检索系统中部署存储系统和多个任务调度器,多个任务调度器与多个流量平台一一对应,多个任务调度器共享存储系统中存储的多媒体资源,该方法包括:接收来自目标流量平台的资源检索请求,目标流量平台为多个流量平台中的一个或者多个流量平台;基于存储系统存储的多媒体资源,通过存储系统和目标流量平台对应的目标任务调度器进行多媒体资源检索,得到针对目标流量平台的目标多媒体资源;向目标流量平台返回目标多媒体资源。从而,通过一个检索系统为多个流量平台提供多媒体资源检索服务,提高了资源检索效率。

    用于生成模型的方法和装置

    公开(公告)号:CN109697978B

    公开(公告)日:2021-04-20

    申请号:CN201811549163.X

    申请日:2018-12-18

    Inventor: 李超

    Abstract: 本申请实施例公开了用于生成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。该实施方式丰富了模型的训练方式,有助于提高语音端点识别的准确度。

    基于人工智能的语音特征提取方法和装置

    公开(公告)号:CN106782501B

    公开(公告)日:2020-07-24

    申请号:CN201611238959.4

    申请日:2016-12-28

    Inventor: 李超 李先刚

    Abstract: 本发明提出一种基于人工智能的语音特征提取方法和装置,其中,方法包括:通过对待识别语音进行频谱分析,得到待识别语音的语谱图之后,利用VGG卷积神经网络对语谱图进行特征提取,得到语音特征。由于语谱图能够对待识别语音以图像的方式进行描述,而VGG卷积神经网络又是一种对图像进行处理的有效方式,因此,采用这种方式所提取出的语音特征能够对语音的特性进行准确描述。当根据所提取出的语音特征在进行语音识别时,能够解决现有技术中由于缺乏对语音特征进行有效提取所导致的语音识别准确度不高的技术问题。

    语音端点检测方法及设备

    公开(公告)号:CN109036471B

    公开(公告)日:2020-06-30

    申请号:CN201810948464.3

    申请日:2018-08-20

    Inventor: 李超 朱唯鑫

    Abstract: 本发明实施例提供一种语音端点检测方法及设备,该方法通过对待检测语音进行分帧处理,得到多个待检测音帧,获取各所述待检测音帧的声学特征,并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型;所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率,使得该VAD模型可以准确的对各待检测音帧的声学特征进行分类,进而根据所述VAD模型的输出结果确定语音段的起点和终点,能够提高语音端点检测的准确率。

    用于生成车载声学模型的方法和装置

    公开(公告)号:CN109637525B

    公开(公告)日:2020-06-09

    申请号:CN201910075039.2

    申请日:2019-01-25

    Inventor: 孙建伟 李超

    Abstract: 本公开的实施例公开了用于生成车载声学模型的方法和装置。该方法的一具体实施方式包括:从预先训练的声学模型组中选择声学模型作为初始声学模型;获取预先生成的训练样本集,其中,训练样本包括样本车载语音数据和对应于样本车载语音数据的样本车载语音识别结果;基于初始声学模型,将训练样本集中的训练样本中的样本车载语音数据作为输入,将与输入的样本车载语音数据相对应的样本车载语音识别结果,作为期望输出,训练得到车载声学模型。该实施方式丰富了模型的生成方式。

    基于卷积神经网络的声学特征提取方法、装置和终端设备

    公开(公告)号:CN106887225B

    公开(公告)日:2020-04-07

    申请号:CN201710172622.6

    申请日:2017-03-21

    Inventor: 李超 李先刚

    Abstract: 本申请提出一种基于卷积神经网络的声学特征提取方法、装置和终端设备,该基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。

    语音端点检测方法、装置、计算机设备、计算机存储介质

    公开(公告)号:CN109036459B

    公开(公告)日:2019-12-27

    申请号:CN201810959142.9

    申请日:2018-08-22

    Inventor: 李超 朱唯鑫

    Abstract: 本发明提出一种语音端点检测方法、装置、计算机设备和计算机可读存储介质。语音端点检测方法,可以包括:针对待检测语音帧,设置卷积神经网络的卷积层的层数;根据所述卷积层的层数设置每层卷积层的步长,其中至少一个所述步长大于1;根据所述每层卷积层的步长,确定所述待检测语音帧的跳帧数。在待检测语音帧进行跳帧检测的情况下,可以大幅度减少电子设备例如计算机设备中的中央处理器的计算量,从而大幅度降低了电子设备的功耗。

    用于生成样本的方法和装置

    公开(公告)号:CN108831446B

    公开(公告)日:2019-10-18

    申请号:CN201810506366.4

    申请日:2018-05-24

    Abstract: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。

Patent Agency Ranking