一种基于隐音素检索的数字人口型多样性增强方法

    公开(公告)号:CN118921516A

    公开(公告)日:2024-11-08

    申请号:CN202411376512.8

    申请日:2024-09-30

    Abstract: 本发明属于数字人口型动画合成技术领域,具体涉及一种基于隐音素检索的数字人口型多样性增强方法,用以增强数字人口型动画的真实性和多样性。具体而言,在传统的音素‑视素匹配方案中,由于音素和视素的类别数量受限于人为定义,导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化,进而影响了口型动画的自然流畅性。为了克服这一局限,本发明采用深度学习技术,对数字人的音视频素材进行预处理、特征提取,并构建了一个隐音素‑视素库。在实时交互中,通过音频隐音素的检索和匹配,实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代,提高口型动画的连贯性和真实感。

    一种基于隐音素检索的数字人口型多样性增强方法

    公开(公告)号:CN118921516B

    公开(公告)日:2025-01-24

    申请号:CN202411376512.8

    申请日:2024-09-30

    Abstract: 本发明属于数字人口型动画合成技术领域,具体涉及一种基于隐音素检索的数字人口型多样性增强方法,用以增强数字人口型动画的真实性和多样性。具体而言,在传统的音素‑视素匹配方案中,由于音素和视素的类别数量受限于人为定义,导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化,进而影响了口型动画的自然流畅性。为了克服这一局限,本发明采用深度学习技术,对数字人的音视频素材进行预处理、特征提取,并构建了一个隐音素‑视素库。在实时交互中,通过音频隐音素的检索和匹配,实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代,提高口型动画的连贯性和真实感。

Patent Agency Ranking