基于自适应半监督非负矩阵分解的跨语料情感识别方法

    公开(公告)号:CN110120231B

    公开(公告)日:2021-04-02

    申请号:CN201910408086.4

    申请日:2019-05-15

    Abstract: 基于自适应半监督非负矩阵分解的跨语料情感识别方法,它属于语音中的情感识别技术领域。本发明解决了话者语音不匹配现象导致的现有跨语料语音情感识别方法对情感识别的准确率低的问题。本发明通过特征空间与标签空间共享编码信息的方式,可以学习到更具判别性的语音情感特征表示,同时采用最大平均差异来度量特征表示中存在的差异,减少话者语音的不匹配,并根据流形一致性假设,使得新的特征表示尽可能保留原始特征空间的信息,增强了语音情感特征表示的健壮性。本发明在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74%,加权平均召回率达到43.84%,有效提高了跨语料语音情感识别的准确率。本发明可以应用于语音中的情感识别技术领域。

    一种基于局部学习的鲁棒声学场景识别方法

    公开(公告)号:CN110176250A

    公开(公告)日:2019-08-27

    申请号:CN201910464699.X

    申请日:2019-05-30

    Abstract: 本发明提供一种基于局部学习的鲁棒声学场景识别方法,属于声音信号处理技术领域。本发明首先采集不同声学场景声音信号,进行频域特征提取;并对提取的特征数据预处理;然后对归一化后的数据进行均值平移、使用mixup方法进行数据扩充;再根据局部学习思想建立卷积神经网络模型,将经过数据扩充后的训练样本集输入该模型进行训练,得到训练好的模型;最后对待识别样本,依次进行频域特征提取、数据预处理,输入到所述训练好的模型中进行识别,得到声学场景识别结果。本发明解决了音频信道不匹配以及不同信道样本数目不平衡的情况下,声学场景识别准确度不高的问题。本发明可适用于信道多样且不同信道样本数目不平衡的声学场景识别。

    基于缓冲池的数据缓存排序在线处理方法

    公开(公告)号:CN101834801B

    公开(公告)日:2012-11-21

    申请号:CN201010177960.7

    申请日:2010-05-20

    Abstract: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。

    一种三级音频索引的创建方法及音频检索方法

    公开(公告)号:CN101833986A

    公开(公告)日:2010-09-15

    申请号:CN201010177959.4

    申请日:2010-05-20

    Abstract: 一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。?

    基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

    公开(公告)号:CN113380232B

    公开(公告)日:2022-11-15

    申请号:CN202110661855.9

    申请日:2021-06-15

    Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。

    一种基于卷积神经网络关系建模的环境声音分类方法

    公开(公告)号:CN113362855B

    公开(公告)日:2022-06-21

    申请号:CN202110679471.X

    申请日:2021-06-18

    Abstract: 一种基于卷积神经网络关系建模的环境声音分类方法,本发明涉及基于卷积神经网络关系建模的环境声音分类方法。本发明的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明用于环境声音分类领域。

    一种基于卷积神经网络关系建模的环境声音分类方法

    公开(公告)号:CN113362855A

    公开(公告)日:2021-09-07

    申请号:CN202110679471.X

    申请日:2021-06-18

    Abstract: 一种基于卷积神经网络关系建模的环境声音分类方法,本发明涉及基于卷积神经网络关系建模的环境声音分类方法。本发明的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明用于环境声音分类领域。

    一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

    公开(公告)号:CN113704552B

    公开(公告)日:2024-09-24

    申请号:CN202111012714.0

    申请日:2021-08-31

    Abstract: 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备,它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。

    一种基于公共子空间表示学习的声学事件识别方法

    公开(公告)号:CN113361592B

    公开(公告)日:2022-11-08

    申请号:CN202110620415.9

    申请日:2021-06-03

    Abstract: 一种基于公共子空间表示学习的声学事件识别方法,涉及一种声学事件识别方法。本发明是为了解决不同语义特征间子空间不一致导致的声学事件识别任务准确率较低的问题。本发明首先对每一个原始声学事件信号进行采样、量化、帧级特征提取、段级特征提取及扩展;然后通过学习公共子空间获得其语义特征表示;计算训练集的核矩阵,并用以训练分类器得到分类模型。在测试时,对每一个原始声学事件信号进行采样、量化、帧级特征提取、段级特征提取及其扩展;在已学习到的公共子空间指导下获得其语义特征表示;最后,计算测试集的核矩阵,并在分类模型的指导下进行模型匹配,来得到预测结果。主要用于声学事件的识别。

    基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法

    公开(公告)号:CN110211574B

    公开(公告)日:2022-03-11

    申请号:CN201910477034.2

    申请日:2019-06-03

    Abstract: 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,属于建模方法领域。传统的注意力模型存在识别性能较差,注意力尺度单一等问题。一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,采用深度置信网络提取瓶颈特征作为前端,能够增加模型的鲁棒性,而后端则采用由不同尺度的卷积核组成的多尺度多头注意力模型,分别对音素、音节、词等级别的语音基元进行建模,逐个计算出循环神经网络隐含层状态序列以及输出序列;使用每个头的注意力网络所对应的解码网络计算输出序列在位置处的元素,最终将所有输出序列采整合成一个新的输出序列。本发明能够提高语音识别系统的识别效果。

Patent Agency Ranking