-
公开(公告)号:CN112560811B
公开(公告)日:2021-07-02
申请号:CN202110188624.0
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及端到端的音视频抑郁症自动检测研究方法,包括:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;音频文件和视频文件预处理:将长时音频文件切分成若干个音频段,同时将长时视频文件切分成具有固定帧数的多个视频段;将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。
-
公开(公告)号:CN112560503B
公开(公告)日:2021-07-02
申请号:CN202110188618.5
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/289 , G06F40/216 , G06F40/284 , G06F16/35 , G06N3/04 , G06K9/62
Abstract: 本申请涉及融合深度特征和时序模型的语义情感分析方法,包括:文本预处理,将文本转化为格式统一的词向量矩阵;以词向量矩阵为输入,提取局部语义情感文本特征和提取上下文语义情感文本特征;利用注意力机制通过对所述局部语义情感文本特征和上下文语义情感文本特征加权,生成融合语义情感文本特征;将所述局部语义情感文本特征、所述上下文语义情感文本特征和融合语义情感文本特征进行连接,生成全局语义情感文本特征;以全局语义情感文本特征为输入,利用softmax分类器进行最终的文本情感语义分析识别。
-
公开(公告)号:CN112687390B
公开(公告)日:2021-06-18
申请号:CN202110270093.X
申请日:2021-03-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。
-
公开(公告)号:CN112581980B
公开(公告)日:2021-05-25
申请号:CN202110216692.3
申请日:2021-02-26
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及时频通道注意力权重计算和向量化的方法和网络,包括:使用球嵌入归一化对对数傅里叶幅值谱进行预处理;切分对数傅里叶幅值谱预处理数据成短时谱段,生成多通道张量;使用注意力机制计算每一个通道时间方向和频率方向的注意力权重;将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量;利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量;将每一个通道的注意力权重张量通过一维卷积获得时间和频率方向的向量化结果;将至少一个通道的时间方向和频率方向的向量化结果拼接起来,并利用一维卷积获得通道向量化结果;计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。
-
公开(公告)号:CN112633483A
公开(公告)日:2021-04-09
申请号:CN202110026128.5
申请日:2021-01-08
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及一种四元组门图神经网络事件预测方法、装置、设备及介质,旨在提高传统事件预测精度。所述方法包括:将多个初始背景事件与多个待选事件构成事理图谱;将事理图谱中的所有事件的向量以四元组的形式进行表示,得到初始背景事件向量与初始待选事件向量;使用四元组门图神经网络对事理图谱进行图网络计算,得到多个新的背景事件向量与多个新的待选事件向量;利用注意力神经网络对事件的向量进行计算,得到背景事件的整体向量;将整体向量与每个新的待选事件向量进行打分,将得分最高的一个待选事件向量对应的待选事件作为预测结果。
-
公开(公告)号:CN112581980A
公开(公告)日:2021-03-30
申请号:CN202110216692.3
申请日:2021-02-26
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及时频通道注意力权重计算和向量化的方法和网络,包括:使用球嵌入归一化对对数傅里叶幅值谱进行预处理;切分对数傅里叶幅值谱预处理数据成短时谱段,生成多通道张量;使用注意力机制计算每一个通道时间方向和频率方向的注意力权重;将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量;利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量;将每一个通道的注意力权重张量通过一维卷积获得时间和频率方向的向量化结果;将至少一个通道的时间方向和频率方向的向量化结果拼接起来,并利用一维卷积获得通道向量化结果;计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。
-
公开(公告)号:CN112580617A
公开(公告)日:2021-03-30
申请号:CN202110222926.5
申请日:2021-03-01
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及自然场景下的表情识别方法和装置,具体方法包括:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;再进行向量融合,得到用于训练的面部特征融合向量;将所述面部特征融合向量输入支持向量机做表情分类。
-
公开(公告)号:CN112580612A
公开(公告)日:2021-03-30
申请号:CN202110196564.7
申请日:2021-02-22
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种生理信号预测方法,包括:采集视频文件,视频文件中包含有长时视频,视频的文件内容含有单个人的面部和真实生理信号数据;将单个长时视频分割成多段短时视频片段,每段短时视频片段具有固定帧数,并且每段短时视频片段对应一个真实生理信号标签;利用所述短时视频片段的每一帧,提取生理信号识别的感兴趣区域特征,形成单帧感兴趣区域特征;对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接,形成多帧视频感兴趣区域特征,将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间,形成包含时间和空间信息的时空图;将所述时空图输入到深度学习模型中进行训练,利用训练好的深度学习模型预测生理信号参数。
-
公开(公告)号:CN112560503A
公开(公告)日:2021-03-26
申请号:CN202110188618.5
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/289 , G06F40/216 , G06F40/284 , G06F16/35 , G06N3/04 , G06K9/62
Abstract: 本申请涉及融合深度特征和时序模型的语义情感分析方法,包括:文本预处理,将文本转化为格式统一的词向量矩阵;以词向量矩阵为输入,提取局部语义情感文本特征和提取上下文语义情感文本特征;利用注意力机制通过对所述局部语义情感文本特征和上下文语义情感文本特征加权,生成融合语义情感文本特征;将所述局部语义情感文本特征、所述上下文语义情感文本特征和融合语义情感文本特征进行连接,生成全局语义情感文本特征;以全局语义情感文本特征为输入,利用softmax分类器进行最终的文本情感语义分析识别。
-
公开(公告)号:CN112329746A
公开(公告)日:2021-02-05
申请号:CN202110001041.2
申请日:2021-01-04
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及数据处理领域,具体涉及一种多模态谎言检测方法、装置、设备,旨在提高自动谎言检测的准确率。所述方法包括:输入待测音频、待测视频以及待测文本这三个模态的原始数据;对输入内容分别进行特征提取,得到三个模态的深度特征;对这三个模态的深度特征中的一阶、二阶以及三阶交互关系进行显式刻画,得到每个词的融合后的多模态特征;对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;对上述每个词的最终的特征进行池化得到全局特征,然后通过全连接层得到谎言分类结果。
-
-
-
-
-
-
-
-
-