一种基于多层级注意力扩散模型的手语骨骼点序列生成方法

    公开(公告)号:CN118628616A

    公开(公告)日:2024-09-10

    申请号:CN202410750413.5

    申请日:2024-06-12

    Abstract: 一种基于多层级注意力扩散模型的手语骨骼点序列生成方法,包括:获取手语图片中人的上半身和手部关键点和相对应的Gloss数据,将获取的高维度手语关键点数据映射到低维度空间中,将原始的手语序列帧数据转换为更紧凑、更具有表征性的隐空间表征Latent。同时,将Gloss数据由文本序列处理为向量形式,输入深度学习模型Gloss‑Based Latent Space Predictor(GLSP),预测得到手语关键点的隐空间表征Latent。将所述生成的隐空间表征Latent输入正向扩散模型,采用分区域冻结网络的训练方式,通过逐渐添加高斯噪声的方式来对原始数据进行破坏,随后在反向扩散阶段,通过学习逆转扩散过程,进而从噪声数据中恢复原始输入数据,利用生成模型去预测原始手语骨骼点分布;生成手语骨骼点序列具有连贯性强、语义准确的优点。

Patent Agency Ranking