一种声学事件检测方法及装置

    公开(公告)号:CN110120230B

    公开(公告)日:2021-06-01

    申请号:CN201910015466.1

    申请日:2019-01-08

    Abstract: 本发明提供一种声学事件检测方法及装置,用以解决相关技术中声学事件检测精度较低的问题。该方法包括:提取待检测的音频的目标特征,得到第一特征数据;将所述第一特征数据分别输入第一GMM模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;将确定出的相邻的类型为声学事件的单位音频合并;当合并后的音频持续的时长超过阈值时,确定发生声学事件。本发明有效提高了声学事件检测的精度。

    基于缓冲池的数据缓存排序在线处理方法

    公开(公告)号:CN101834801B

    公开(公告)日:2012-11-21

    申请号:CN201010177960.7

    申请日:2010-05-20

    Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。

    一种三级音频索引的创建方法及音频检索方法

    公开(公告)号:CN101833986A

    公开(公告)日:2010-09-15

    申请号:CN201010177959.4

    申请日:2010-05-20

    Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。?

    一种声学事件检测方法及装置

    公开(公告)号:CN110120230A

    公开(公告)日:2019-08-13

    申请号:CN201910015466.1

    申请日:2019-01-08

    Abstract: 本发明提供一种声学事件检测方法及装置,用以解决相关技术中声学事件检测精度较低的问题。该方法包括:提取待检测的音频的目标特征,得到第一特征数据;将所述第一特征数据分别输入第一GMM模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;将确定出的相邻的类型为声学事件的单位音频合并;当合并后的音频持续的时长超过阈值时,确定发生声学事件。本发明有效提高了声学事件检测的精度。

    一种三级音频索引的创建方法及音频检索方法

    公开(公告)号:CN101833986B

    公开(公告)日:2011-10-05

    申请号:CN201010177959.4

    申请日:2010-05-20

    Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。

    基于缓冲池的数据缓存排序在线处理方法

    公开(公告)号:CN101834801A

    公开(公告)日:2010-09-15

    申请号:CN201010177960.7

    申请日:2010-05-20

    Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。?

    一种面向低资源设备的轻量级声学模型

    公开(公告)号:CN119580687A

    公开(公告)日:2025-03-07

    申请号:CN202411418583.X

    申请日:2024-10-12

    Inventor: 韩纪庆 类海越

    Abstract: 本发明涉及语音合成技术,具体涉及一种面向低资源设备的轻量级声学模型。由于嵌入式设备的计算资源,内存和存储空间等都是有限的,因此需要考虑模型的轻量化设计,在保持语音合成质量的前提下,降低模型的复杂性和资源消耗。本发明针对FastSpeech2声学模型在低资源设备上推理速度较慢的问题进行分析和改进,提出FRSpeech模型,采用完全卷积的网络结构,使用更简单、训练速度更快的基于残差卷积块的编解码器结构。通过适当设计卷积残差块的结构,可以使其具有足够的表征能力来捕捉输入序列中的重要信息,从而保持或提高模型的性能,并且使得模型具有较少的参数量,从而简化模型,能够在算力资源和内存资源都有限的设备上实现快速推理。

Patent Agency Ranking