-
公开(公告)号:CN112560811A
公开(公告)日:2021-03-26
申请号:CN202110188624.0
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及端到端的音视频抑郁症自动检测研究方法,包括:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;音频文件和视频文件预处理:将长时音频文件切分成若干个音频段,同时将长时视频文件切分成具有固定帧数的多个视频段;将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。
-
公开(公告)号:CN110532950A
公开(公告)日:2019-12-03
申请号:CN201910808102.9
申请日:2019-08-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感计算领域,特别涉及一种基于微表情视频的视频特征提取方法,旨在为了解决如何从视频中识别面部微小变化并提取出微表情特征,提高微表情识别精度和准确率的问题。本发明对待测目标人脸视频每一帧图像进行网格化处理,并进行二阶梯度的计算和数据分布统计,获取图像帧序列对应的图像特征表示序列;通过秩池化,按照时间顺序排序特征表示序列,获取视频特征表示;通过范数的行稀疏性获取微表情视频特征。本发明能够提取面部的局部细节信息,捕获人脸细节信息的动态变化,在提取微表情视频特征的同时进一步抑制面部中其他信息对识别结果的影响;进一步通过本发明的微表情识别方法,有效提高了微表情识别精度和准确率。
-
公开(公告)号:CN112331337B
公开(公告)日:2021-04-16
申请号:CN202110001070.9
申请日:2021-01-04
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。
-
公开(公告)号:CN112331337A
公开(公告)日:2021-02-05
申请号:CN202110001070.9
申请日:2021-01-04
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。
-
公开(公告)号:CN112687390A
公开(公告)日:2021-04-20
申请号:CN202110270093.X
申请日:2021-03-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。
-
公开(公告)号:CN110532950B
公开(公告)日:2021-08-13
申请号:CN201910808102.9
申请日:2019-08-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感计算领域,特别涉及一种基于微表情视频的视频特征提取方法,旨在为了解决如何从视频中识别面部微小变化并提取出微表情特征,提高微表情识别精度和准确率的问题。本发明对待测目标人脸视频每一帧图像进行网格化处理,并进行二阶梯度的计算和数据分布统计,获取图像帧序列对应的图像特征表示序列;通过秩池化,按照时间顺序排序特征表示序列,获取视频特征表示;通过范数的行稀疏性获取微表情视频特征。本发明能够提取面部的局部细节信息,捕获人脸细节信息的动态变化,在提取微表情视频特征的同时进一步抑制面部中其他信息对识别结果的影响;进一步通过本发明的微表情识别方法,有效提高了微表情识别精度和准确率。
-
公开(公告)号:CN112560811B
公开(公告)日:2021-07-02
申请号:CN202110188624.0
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及端到端的音视频抑郁症自动检测研究方法,包括:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;音频文件和视频文件预处理:将长时音频文件切分成若干个音频段,同时将长时视频文件切分成具有固定帧数的多个视频段;将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。
-
公开(公告)号:CN112687390B
公开(公告)日:2021-06-18
申请号:CN202110270093.X
申请日:2021-03-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。
-
公开(公告)号:CN112581980B
公开(公告)日:2021-05-25
申请号:CN202110216692.3
申请日:2021-02-26
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及时频通道注意力权重计算和向量化的方法和网络,包括:使用球嵌入归一化对对数傅里叶幅值谱进行预处理;切分对数傅里叶幅值谱预处理数据成短时谱段,生成多通道张量;使用注意力机制计算每一个通道时间方向和频率方向的注意力权重;将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量;利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量;将每一个通道的注意力权重张量通过一维卷积获得时间和频率方向的向量化结果;将至少一个通道的时间方向和频率方向的向量化结果拼接起来,并利用一维卷积获得通道向量化结果;计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。
-
公开(公告)号:CN112581980A
公开(公告)日:2021-03-30
申请号:CN202110216692.3
申请日:2021-02-26
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及时频通道注意力权重计算和向量化的方法和网络,包括:使用球嵌入归一化对对数傅里叶幅值谱进行预处理;切分对数傅里叶幅值谱预处理数据成短时谱段,生成多通道张量;使用注意力机制计算每一个通道时间方向和频率方向的注意力权重;将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量;利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量;将每一个通道的注意力权重张量通过一维卷积获得时间和频率方向的向量化结果;将至少一个通道的时间方向和频率方向的向量化结果拼接起来,并利用一维卷积获得通道向量化结果;计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。
-
-
-
-
-
-
-
-
-