一种融合多维信息的说话人情绪感知方法

    公开(公告)号:CN113837072A

    公开(公告)日:2021-12-24

    申请号:CN202111117785.7

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 一种融合多维信息的说话人情绪感知方法,涉及深度学习和人的情绪感知技术领域。输入说话人的视频,从视频中提取说话人的图像及语音;将说话人的图像及语音输入多维特征提取网络,对语音中的语言文本和语言情绪进行提取,并从图像信息中提取出说话人的人脸表情特征;使用多维特征编码算法对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间;使用多维特征融合算法对编码空间中的特征从低维到高维进行融合,取得多维信息在高维特征空间中与说话人情绪高度相关的特征向量;将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布。可根据多维信息有效排除歧义性,精准预测说话人的情绪感知分布。

    一种感知环境的语音驱动虚拟人姿态合成方法

    公开(公告)号:CN113838218B

    公开(公告)日:2023-10-13

    申请号:CN202111117800.8

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 一种感知环境的语音驱动虚拟人姿态合成方法,涉及动作合成。对第一网络输入一段语音音频,输出对应的文本内容;将文本内容输入到人物关系模块,输出 三元组;对第二网络输入一张场景图片,结合三元组中的物体,输出目标物体的坐标;对第三网络输入初始人体动作骨架,三元组中的动作、第一网络输入的语音音频,输出人体动作骨架序列;输入人的坐标点作为起点,结合第二网络输出的目标物体的坐标,输入第四网络中,结合从先验高斯过程分布中的随机采样,生成从起点坐标指向目标坐标的运动轨迹;将人体动作骨架序列与运动轨迹进行时间对齐后,输入第五网络中,输出矫正的人体骨架序列。能融合图像、音频、文本等多模态信息。

    一种感知环境的语音驱动虚拟人姿态合成方法

    公开(公告)号:CN113838218A

    公开(公告)日:2021-12-24

    申请号:CN202111117800.8

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 一种感知环境的语音驱动虚拟人姿态合成方法,涉及动作合成。对第一网络输入一段语音音频,输出对应的文本内容;将文本内容输入到人物关系模块,输出 三元组;对第二网络输入一张场景图片,结合三元组中的物体,输出目标物体的坐标;对第三网络输入初始人体动作骨架,三元组中的动作、第一网络输入的语音音频,输出人体动作骨架序列;输入人的坐标点作为起点,结合第二网络输出的目标物体的坐标,输入第四网络中,结合从先验高斯过程分布中的随机采样,生成从起点坐标指向目标坐标的运动轨迹;将人体动作骨架序列与运动轨迹进行时间对齐后,输入第五网络中,输出矫正的人体骨架序列。能融合图像、音频、文本等多模态信息。

Patent Agency Ranking