Patent search ap:("电子科技大学(深圳)高等研究院") AND inv:"任福继" Page 1

1.

发明公开
一种基于隐音素检索的数字人口型多样性增强方法有权

公开(公告)号：CN118921516A

公开(公告)日：2024-11-08

申请号：CN202411376512.8

申请日：2024-09-30

Applicant: 电子科技大学(深圳)高等研究院

Inventor： 刘旻昊 , 张彦如 , 任福继 , 段立新 , 唐浩 , 邓达豪 , 吴乃星

IPC: H04N21/43 , G06T13/00 , H04N21/439 , G10L15/02 , G10L15/08

Abstract: 本发明属于数字人口型动画合成技术领域，具体涉及一种基于隐音素检索的数字人口型多样性增强方法，用以增强数字人口型动画的真实性和多样性。具体而言，在传统的音素‑视素匹配方案中，由于音素和视素的类别数量受限于人为定义，导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化，进而影响了口型动画的自然流畅性。为了克服这一局限，本发明采用深度学习技术，对数字人的音视频素材进行预处理、特征提取，并构建了一个隐音素‑视素库。在实时交互中，通过音频隐音素的检索和匹配，实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代，提高口型动画的连贯性和真实感。

2.

发明授权
一种基于隐音素检索的数字人口型多样性增强方法有权

公开(公告)号：CN118921516B

公开(公告)日：2025-01-24

申请号：CN202411376512.8

申请日：2024-09-30

Applicant: 电子科技大学(深圳)高等研究院

Inventor： 刘旻昊 , 张彦如 , 任福继 , 段立新 , 唐浩 , 邓达豪 , 吴乃星

IPC: H04N21/43 , G06T13/00 , H04N21/439 , G10L15/02 , G10L15/08

Abstract: 本发明属于数字人口型动画合成技术领域，具体涉及一种基于隐音素检索的数字人口型多样性增强方法，用以增强数字人口型动画的真实性和多样性。具体而言，在传统的音素‑视素匹配方案中，由于音素和视素的类别数量受限于人为定义，导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化，进而影响了口型动画的自然流畅性。为了克服这一局限，本发明采用深度学习技术，对数字人的音视频素材进行预处理、特征提取，并构建了一个隐音素‑视素库。在实时交互中，通过音频隐音素的检索和匹配，实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代，提高口型动画的连贯性和真实感。

Patent Agency Ranking