一种生理信号预测方法
    1.
    发明公开

    公开(公告)号:CN112580612A

    公开(公告)日:2021-03-30

    申请号:CN202110196564.7

    申请日:2021-02-22

    Abstract: 本申请涉及一种生理信号预测方法,包括:采集视频文件,视频文件中包含有长时视频,视频的文件内容含有单个人的面部和真实生理信号数据;将单个长时视频分割成多段短时视频片段,每段短时视频片段具有固定帧数,并且每段短时视频片段对应一个真实生理信号标签;利用所述短时视频片段的每一帧,提取生理信号识别的感兴趣区域特征,形成单帧感兴趣区域特征;对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接,形成多帧视频感兴趣区域特征,将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间,形成包含时间和空间信息的时空图;将所述时空图输入到深度学习模型中进行训练,利用训练好的深度学习模型预测生理信号参数。

    多模态谎言检测方法、装置、设备

    公开(公告)号:CN112329746A

    公开(公告)日:2021-02-05

    申请号:CN202110001041.2

    申请日:2021-01-04

    Abstract: 本申请实施例涉及数据处理领域,具体涉及一种多模态谎言检测方法、装置、设备,旨在提高自动谎言检测的准确率。所述方法包括:输入待测音频、待测视频以及待测文本这三个模态的原始数据;对输入内容分别进行特征提取,得到三个模态的深度特征;对这三个模态的深度特征中的一阶、二阶以及三阶交互关系进行显式刻画,得到每个词的融合后的多模态特征;对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;对上述每个词的最终的特征进行池化得到全局特征,然后通过全连接层得到谎言分类结果。

    基于音视频的鲁棒情感建模系统

    公开(公告)号:CN113255800A

    公开(公告)日:2021-08-13

    申请号:CN202110615003.6

    申请日:2021-06-02

    Abstract: 本发明提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。

    面向交互场景的自动谎言检测方法、装置、设备及介质

    公开(公告)号:CN112329748B

    公开(公告)日:2021-04-30

    申请号:CN202110001077.0

    申请日:2021-01-04

    Abstract: 本申请实施例涉及一种面向交互场景的自动谎言检测方法、装置、设备及介质,旨在提高自动谎言检测的准确率。所述方法包括:将待测样片分别按照视频、音频和文本这三个模态进行切分,提取出这三个模态的短时特征,将待测样片中每句对话中三个模态的短时特征分别进行融合,得到每句对话对应的三个模态的长时特征,使用自注意力机制对三个模态的长时特征进行融合,得到每句对话的多模态特征,通过图神经网络为每句对话的多模态特征融合交互信息,得到融合交互信息的多模态特征,根据融合交互信息的多模态特征,预测每句对话的谎言水平。

    多模态谎言检测方法、装置、设备

    公开(公告)号:CN112329746B

    公开(公告)日:2021-04-16

    申请号:CN202110001041.2

    申请日:2021-01-04

    Abstract: 本申请实施例涉及数据处理领域,具体涉及一种多模态谎言检测方法、装置、设备,旨在提高自动谎言检测的准确率。所述方法包括:输入待测音频、待测视频以及待测文本这三个模态的原始数据;对输入内容分别进行特征提取,得到三个模态的深度特征;对这三个模态的深度特征中的一阶、二阶以及三阶交互关系进行显式刻画,得到每个词的融合后的多模态特征;对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;对上述每个词的最终的特征进行池化得到全局特征,然后通过全连接层得到谎言分类结果。

    海量音视频情感识别系统

    公开(公告)号:CN112633263B

    公开(公告)日:2021-06-08

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    海量音视频情感识别系统

    公开(公告)号:CN112633263A

    公开(公告)日:2021-04-09

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    基于音视频的鲁棒情感建模系统

    公开(公告)号:CN113255800B

    公开(公告)日:2021-10-15

    申请号:CN202110615003.6

    申请日:2021-06-02

    Abstract: 本发明提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。

    多模态情感识别方法
    9.
    发明授权

    公开(公告)号:CN112559835B

    公开(公告)日:2021-09-14

    申请号:CN202110200140.3

    申请日:2021-02-23

    Abstract: 本申请涉及多模态情感识别方法,包括:分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。

    多模态维度情感识别方法
    10.
    发明授权

    公开(公告)号:CN112560830B

    公开(公告)日:2021-05-25

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

Patent Agency Ranking