一种基于递归神经网络的离散情感识别方法

    公开(公告)号:CN105469065B

    公开(公告)日:2019-04-23

    申请号:CN201510889388.X

    申请日:2015-12-07

    Abstract: 本发明提出的一种基于递归神经网络的离散情感识别方法,步骤为:1、对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点作为人脸的形变特征;将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;2、对视频中的音频信号进行加窗处理,分割出音频序列单元并提取音频特征;3、利用具有长短时记忆模型的递归神经网络分别对上述得到的三项特征进行时序编码,获得固定长度的情感表征向量;并将其相串联,得到最终情感表述特征;4、基于的支持向量机分类器,利用3中得到的最终情感表述特征进行情感类别预测。该方法能够充分利用情感表达过程中的动态信息,从而实现视频中参与者情感的精确识别。

    一种融合长跨度情感历史的语音情感识别方法

    公开(公告)号:CN103531207B

    公开(公告)日:2016-07-27

    申请号:CN201310481318.1

    申请日:2013-10-15

    Abstract: 本发明公开了一种融合长跨度情感历史的语音情感识别方法。该方法包括以下步骤:利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别语音段数据;将待识别语音段数据切分为独立的语音段数据单元;利用第一支持向量机对语音段数据单元分别进行情感状态初步分类;对情感状态初步分类结果进行加窗,并利用第二支持向量机进行融合,得到融合长跨度情感历史的情感识别结果。本发明在保证对语音信号的局部单元进行高精度分类的同时,又充分利用信号序列的长跨度内的上下文信息,以达到对序列中的每一单元达到最优的分类结果。本发明能够用于语音信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。

    发音器官可视语音合成系统

    公开(公告)号:CN102820030B

    公开(公告)日:2014-03-26

    申请号:CN201210265448.7

    申请日:2012-07-27

    Abstract: 本发明提供了一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、动画驱动模块和运动分析模块,其中:音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;动画驱动模块,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。本发明直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受在线数据库的限制和生理模型的限制优点。

    一种互动娱乐商标广告的植入方法

    公开(公告)号:CN101388067A

    公开(公告)日:2009-03-18

    申请号:CN200710121661.X

    申请日:2007-09-12

    Abstract: 本发明属于模式识别技术和数字互动娱乐领域,基于计算机视觉和图像处理技术的新型数字互动娱乐商标广告方法,把模式识别和统计学习技术运用于交互游戏中的商标广告,包括步骤:选取正负样本;标定正样本;用统计学习的方法训练正负样本;根据训练结果生成瀑布型级联分类器;根据分类器识别视频中的商标。本发明数字互动娱乐商标广告方法改变了传统的单一广告模式,利用最新的计算机视觉与图像处理技术实现商标的自动检测和识别,将广告与游戏同步,并且广告过程需要用户的参与,实时、鲁棒、趣味性强,并且易于实现和操作。本发明不仅可以扩大游戏的增值渠道,而且使游戏更具交互性和沉浸感。

Patent Agency Ranking