一种基于多层级注意力扩散模型的手语骨骼点序列生成方法

    公开(公告)号:CN118628616A

    公开(公告)日:2024-09-10

    申请号:CN202410750413.5

    申请日:2024-06-12

    Abstract: 一种基于多层级注意力扩散模型的手语骨骼点序列生成方法,包括:获取手语图片中人的上半身和手部关键点和相对应的Gloss数据,将获取的高维度手语关键点数据映射到低维度空间中,将原始的手语序列帧数据转换为更紧凑、更具有表征性的隐空间表征Latent。同时,将Gloss数据由文本序列处理为向量形式,输入深度学习模型Gloss‑Based Latent Space Predictor(GLSP),预测得到手语关键点的隐空间表征Latent。将所述生成的隐空间表征Latent输入正向扩散模型,采用分区域冻结网络的训练方式,通过逐渐添加高斯噪声的方式来对原始数据进行破坏,随后在反向扩散阶段,通过学习逆转扩散过程,进而从噪声数据中恢复原始输入数据,利用生成模型去预测原始手语骨骼点分布;生成手语骨骼点序列具有连贯性强、语义准确的优点。

    一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质

    公开(公告)号:CN117935360A

    公开(公告)日:2024-04-26

    申请号:CN202410100299.1

    申请日:2024-01-24

    Abstract: 一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质,方法包括,提取手语关键点并进行数据预处理,获取手语关键点序列的隐空间表征,并通过隐空间表征重构手语关键点序列,对手语重构网络SLAE进行训练,获取手语注解序列、音频序列与目标手语姿态序列作训练样本,对手语注解序列与音频序列特征融合进行隐空间建模,结合不同模态数据来预测手语关键点序列的隐空间表征;引入物理感知损失函数协同训练手语重构网络和手语隐空间预测网络,预测手语关键点序列隐空间表征并利用手语重构网络合成手语视频;系统、设备及介质,用于实现一种基于隐空间桥梁机制的手语生成方法;本发明得到的手部动作的精准度提高、生成结果的流畅、生成结果语义信息高。

Patent Agency Ranking