一种利用长短期信息融合的视频三维人体姿态估计算法

    公开(公告)号:CN112215160B

    公开(公告)日:2023-11-24

    申请号:CN202011092625.7

    申请日:2020-10-13

    Applicant: 厦门大学

    Inventor: 曾鸣 邓文晋

    Abstract: 一种利用长短期信息融合的视频三维人体姿态估计算法,涉及深度学习和人体姿态估计技术领域。对第一网络输入一段视频,每一帧对应的人体二维骨架姿态坐标,并组成序列;从人体二维骨架姿态坐标序列中抽取一定数量的关键帧,将其存储在长期动作池中;将长期动作池中的动作插入到一个滑动窗口内的人体二维骨架姿态坐标序列中,生成一个滑动窗口内重构的人体二维骨架姿态坐标序列;对第二网络输入一个滑动窗口内重构的人体二维骨架姿态坐标序列,输出这段序列中心帧对应的人体三维骨架姿态坐标;将第二网络输出的每个滑动窗口中心帧对应的人体三维骨架姿态坐标进行拼接,输出为视频对应的三维人体姿态序列。准确有效,对于视频帧率波动适应性好。

    一种利用语音信息的实时视频人脸区域时空一致合成方法

    公开(公告)号:CN113470170A

    公开(公告)日:2021-10-01

    申请号:CN202110750794.3

    申请日:2021-07-02

    Applicant: 厦门大学

    Abstract: 一种利用语音信息的实时视频人脸区域时空一致合成方法,涉及深度学习和三维人脸重建。利用三维人脸重建算法从视觉特征提取人脸身份信息、人脸形状信息、人脸姿态信息和人脸纹理信息,并利用深度学习技术从音频特征提取人脸表情信息,融合前者的视觉信息和后者的听觉信息,增强神经网络合成人脸表情的丰富性,快速准确地合成与当前说话内容相一致的人脸说话视频。引入参考人脸身份参数,可约束输出前后视频帧身份形象一致。引入时序上的上下文信息和平滑约束,抑制纹理抖动,使人脸生成算法能适用于视频。采用更为精简的神经网络结构,可实时生成人脸说话视频或去掉人脸遮挡物,可在安防监控、视频会议、虚拟形象、动画驱动等领域应用。

    一种感知环境的语音驱动虚拟人姿态合成方法

    公开(公告)号:CN113838218B

    公开(公告)日:2023-10-13

    申请号:CN202111117800.8

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 一种感知环境的语音驱动虚拟人姿态合成方法,涉及动作合成。对第一网络输入一段语音音频,输出对应的文本内容;将文本内容输入到人物关系模块,输出 三元组;对第二网络输入一张场景图片,结合三元组中的物体,输出目标物体的坐标;对第三网络输入初始人体动作骨架,三元组中的动作、第一网络输入的语音音频,输出人体动作骨架序列;输入人的坐标点作为起点,结合第二网络输出的目标物体的坐标,输入第四网络中,结合从先验高斯过程分布中的随机采样,生成从起点坐标指向目标坐标的运动轨迹;将人体动作骨架序列与运动轨迹进行时间对齐后,输入第五网络中,输出矫正的人体骨架序列。能融合图像、音频、文本等多模态信息。

    一种感知环境的语音驱动虚拟人姿态合成方法

    公开(公告)号:CN113838218A

    公开(公告)日:2021-12-24

    申请号:CN202111117800.8

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 一种感知环境的语音驱动虚拟人姿态合成方法,涉及动作合成。对第一网络输入一段语音音频,输出对应的文本内容;将文本内容输入到人物关系模块,输出 三元组;对第二网络输入一张场景图片,结合三元组中的物体,输出目标物体的坐标;对第三网络输入初始人体动作骨架,三元组中的动作、第一网络输入的语音音频,输出人体动作骨架序列;输入人的坐标点作为起点,结合第二网络输出的目标物体的坐标,输入第四网络中,结合从先验高斯过程分布中的随机采样,生成从起点坐标指向目标坐标的运动轨迹;将人体动作骨架序列与运动轨迹进行时间对齐后,输入第五网络中,输出矫正的人体骨架序列。能融合图像、音频、文本等多模态信息。

    一种利用长短期信息融合的视频三维人体姿态估计算法

    公开(公告)号:CN112215160A

    公开(公告)日:2021-01-12

    申请号:CN202011092625.7

    申请日:2020-10-13

    Applicant: 厦门大学

    Inventor: 曾鸣 邓文晋

    Abstract: 一种利用长短期信息融合的视频三维人体姿态估计算法,涉及深度学习和人体姿态估计技术领域。对第一网络输入一段视频,每一帧对应的人体二维骨架姿态坐标,并组成序列;从人体二维骨架姿态坐标序列中抽取一定数量的关键帧,将其存储在长期动作池中;将长期动作池中的动作插入到一个滑动窗口内的人体二维骨架姿态坐标序列中,生成一个滑动窗口内重构的人体二维骨架姿态坐标序列;对第二网络输入一个滑动窗口内重构的人体二维骨架姿态坐标序列,输出这段序列中心帧对应的人体三维骨架姿态坐标;将第二网络输出的每个滑动窗口中心帧对应的人体三维骨架姿态坐标进行拼接,输出为视频对应的三维人体姿态序列。准确有效,对于视频帧率波动适应性好。

    一种利用语音信息的实时视频人脸区域时空一致合成方法

    公开(公告)号:CN113470170B

    公开(公告)日:2024-10-22

    申请号:CN202110750794.3

    申请日:2021-07-02

    Applicant: 厦门大学

    Abstract: 一种利用语音信息的实时视频人脸区域时空一致合成方法,涉及深度学习和三维人脸重建。利用三维人脸重建算法从视觉特征提取人脸身份信息、人脸形状信息、人脸姿态信息和人脸纹理信息,并利用深度学习技术从音频特征提取人脸表情信息,融合前者的视觉信息和后者的听觉信息,增强神经网络合成人脸表情的丰富性,快速准确地合成与当前说话内容相一致的人脸说话视频。引入参考人脸身份参数,可约束输出前后视频帧身份形象一致。引入时序上的上下文信息和平滑约束,抑制纹理抖动,使人脸生成算法能适用于视频。采用更为精简的神经网络结构,可实时生成人脸说话视频或去掉人脸遮挡物,可在安防监控、视频会议、虚拟形象、动画驱动等领域应用。

    一种融合多维信息的说话人情绪感知方法

    公开(公告)号:CN113837072A

    公开(公告)日:2021-12-24

    申请号:CN202111117785.7

    申请日:2021-09-24

    Applicant: 厦门大学

    Abstract: 一种融合多维信息的说话人情绪感知方法,涉及深度学习和人的情绪感知技术领域。输入说话人的视频,从视频中提取说话人的图像及语音;将说话人的图像及语音输入多维特征提取网络,对语音中的语言文本和语言情绪进行提取,并从图像信息中提取出说话人的人脸表情特征;使用多维特征编码算法对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间;使用多维特征融合算法对编码空间中的特征从低维到高维进行融合,取得多维信息在高维特征空间中与说话人情绪高度相关的特征向量;将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布。可根据多维信息有效排除歧义性,精准预测说话人的情绪感知分布。

Patent Agency Ranking