-
公开(公告)号:CN118628616A
公开(公告)日:2024-09-10
申请号:CN202410750413.5
申请日:2024-06-12
Applicant: 西安电子科技大学
Abstract: 一种基于多层级注意力扩散模型的手语骨骼点序列生成方法,包括:获取手语图片中人的上半身和手部关键点和相对应的Gloss数据,将获取的高维度手语关键点数据映射到低维度空间中,将原始的手语序列帧数据转换为更紧凑、更具有表征性的隐空间表征Latent。同时,将Gloss数据由文本序列处理为向量形式,输入深度学习模型Gloss‑Based Latent Space Predictor(GLSP),预测得到手语关键点的隐空间表征Latent。将所述生成的隐空间表征Latent输入正向扩散模型,采用分区域冻结网络的训练方式,通过逐渐添加高斯噪声的方式来对原始数据进行破坏,随后在反向扩散阶段,通过学习逆转扩散过程,进而从噪声数据中恢复原始输入数据,利用生成模型去预测原始手语骨骼点分布;生成手语骨骼点序列具有连贯性强、语义准确的优点。
-
公开(公告)号:CN117935360A
公开(公告)日:2024-04-26
申请号:CN202410100299.1
申请日:2024-01-24
Applicant: 西安电子科技大学
Abstract: 一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质,方法包括,提取手语关键点并进行数据预处理,获取手语关键点序列的隐空间表征,并通过隐空间表征重构手语关键点序列,对手语重构网络SLAE进行训练,获取手语注解序列、音频序列与目标手语姿态序列作训练样本,对手语注解序列与音频序列特征融合进行隐空间建模,结合不同模态数据来预测手语关键点序列的隐空间表征;引入物理感知损失函数协同训练手语重构网络和手语隐空间预测网络,预测手语关键点序列隐空间表征并利用手语重构网络合成手语视频;系统、设备及介质,用于实现一种基于隐空间桥梁机制的手语生成方法;本发明得到的手部动作的精准度提高、生成结果的流畅、生成结果语义信息高。
-
公开(公告)号:CN117409121A
公开(公告)日:2024-01-16
申请号:CN202311344000.9
申请日:2023-10-17
Applicant: 西安电子科技大学
IPC: G06T13/40 , G10L19/16 , G10L25/63 , G06T13/20 , G06V40/16 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0895
Abstract: 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质,方法包括:向OpenFace模型中输入参考图像获取人脸面部特征信息,向音频编码器中输入音频片段,解耦其中的情感向量,获取纯粹的内容特征,将内容特征输入表达系数预测网络得到预测表达系数,人为指定情感类别标签和强度标签,将标签及内容特征输入情感系数预测网络和姿势系数预测网络获得预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,生成具有细粒度情感控制的说话人脸视频;系统、设备及介质,用于实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法;克服了人脸与音频情感表达不同步,唇音同步性差,不能生成指定情感和细粒度情感强度的说话人脸视频的问题。
-
-