专利检索 ap:("清华珠三角研究院" OR "赛业(广州)生物科技有限公司") AND inv:"王伦基" 第 1 页

1.

发明授权
一种视频翻译方法、系统、装置及存储介质有权

公开(公告)号：CN112562721B

公开(公告)日：2024-04-16

申请号：CN202011375314.1

申请日：2020-11-30

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 王伦基 , 叶俊杰 , 李权 , 成秋喜 , 胡玉针 , 李嘉雄 , 朱杰 , 韩蓝青

IPC分类号： G10L21/10 , G10L25/57 , G10L15/26 , G10L13/04 , G10L13/047 , G10L17/00 , G10L21/043 , G06F40/58 , G06V40/16 , G06V20/40

摘要： 本发明公开了一种视频翻译方法、系统、装置及存储介质，其中方法包括以下步骤：获取视频数据；对所述视频数据进行语音分割，获得语音片段以及与所述语音片段对应的视频片段；对所述语音片段进行语音识别，获得第一文本，对所述第一文本进行翻译，获得第二文本；根据所述第二文本获取合成语音，通过调整所述合成语音和与之对应的所述视频片段，使所述合成语音与所述视频片段匹配；检测并调整所述视频片段中的唇形，以使所述唇形与所述合成语音同步匹配。本发明实现了对视频自动翻译的功能，能够生成目标语言声音的音频，并生成声音与唇形匹配的视频，解决了不同语种间的交流障碍，无需人工配音，降低了翻译成本，可广泛应用于视频处理领域。

2.

发明授权
一种虚拟人物表情动作的提取方法、系统、装置及介质有权

公开(公告)号：CN111291674B

公开(公告)日：2023-07-14

申请号：CN202010079897.7

申请日：2020-02-04

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 王伦基 , 李权 , 叶俊杰 , 任勇 , 黄桂芳 , 韩蓝青

IPC分类号： G06V40/16 , G06V40/20 , G06V10/82 , G06N3/0464 , G06N3/08

摘要： 本发明公开了一种虚拟人物表情动作的提取方法、装置、装置及存储介质，所述方法包括采集人物动作视频，从所述人物动作视频中提取人物动作信息，构建人物动作库，根据语音信号获取对应的唇形图像，将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像，从所述图像提取人物表情动作。通过构建人物动作库，并简单的修改二维点坐标，或者二维掩码的形状，就可以生成互不相同的第二标签信息，进而能够丰富人物动作库的内容；在简化人物表情动作提取操作的同时，还能随时提取不同的表情动作，并且能够提供丰富的人物动作库，并可以方便地在人物动作库中加入新的动作，提高工作效率。本发明广泛应用于图像处理技术领域。

3.

发明授权
语音驱动图像的方法、系统、装置及存储介质有权

公开(公告)号：CN113192162B

公开(公告)日：2022-12-02

申请号：CN202110436595.5

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 王伦基 , 李权 , 叶俊杰 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： G06T13/20 , G06V40/16 , G06V10/82 , G06N3/04 , G06N3/08 , G10L15/22

摘要： 本发明公开了一种语音驱动图像的方法、系统、装置及存储介质，所述方法包括：获取语音及图像；根据所述图像提取面部特征参数；将所述语音输入到头部位姿及表情预测模型获取系列动态参数；根据所述面部特征参数及所述系列动态参数生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明实施例通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取，通过头部位姿及表情预测模型获取与语音匹配的动态参数，通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件，整个过程操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

4.

发明公开
一种虚拟人物自动讲解的方法、系统、装置和介质无效

公开(公告)号：CN113270101A

公开(公告)日：2021-08-17

申请号：CN202110434042.6

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 朱杰 , 李权 , 叶俊杰 , 王伦基 , 成秋喜 , 韩蓝青

IPC分类号： G10L15/26 , G06K9/32 , G09F27/00

摘要： 本发明公开了一种虚拟人物自动讲解的方法、系统、装置和存储介质。虚拟人物自动讲解的方法包括识别出输入信息中包含的文旅客体信息，生成用于对文旅客体信息进行讲解的讲解信息，显示虚拟人物，通过所述虚拟人物播放讲解信息等步骤。本发明通过虚拟人物对文旅客体进行自动讲解，能够避免人工讲解效率低下、成本高、服务质量不稳定、时间覆盖度低等缺点，并且由于计算机系统可以连接到庞大的数据库，因此计算机系统的知识储备远比真人讲解人员丰富，因此能够向游客提供更详细的讲解，有利于推广文化旅游。本发明广泛应用于人机交互技术领域。

5.

发明公开
语音驱动图像的方法、系统、装置及存储介质有权

公开(公告)号：CN113192162A

公开(公告)日：2021-07-30

申请号：CN202110436595.5

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 王伦基 , 李权 , 叶俊杰 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： G06T13/20 , G06K9/00 , G06N3/04 , G06N3/08 , G10L15/22

摘要： 本发明公开了一种语音驱动图像的方法、系统、装置及存储介质，所述方法包括：获取语音及图像；根据所述图像提取面部特征参数；将所述语音输入到头部位姿及表情预测模型获取系列动态参数；根据所述面部特征参数及所述系列动态参数生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明实施例通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取，通过头部位姿及表情预测模型获取与语音匹配的动态参数，通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件，整个过程操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

6.

发明公开
语音及动作驱动图像的方法、系统、装置及存储介质有权

公开(公告)号：CN113179449A

公开(公告)日：2021-07-27

申请号：CN202110436618.2

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 王伦基 , 李权 , 叶俊杰 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： H04N21/439 , H04N21/44 , H04N21/4402 , H04N21/4415 , H04N21/81 , H04N5/262

摘要： 本发明公开了一种语音及动作驱动图像的方法、系统、装置及存储介质，所述方法包括：获取语音、动作视频及图像；根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；根据所述图像及所述动作视频确定驱动的系列关键点参数；根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明实施例能够驱动静态图像按照预设的语音及动作形成匹配的视频文件，生动逼真，操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

7.

发明授权
一种将语音转换成唇形的方法、系统、装置和存储介质有权

公开(公告)号：CN111261187B

公开(公告)日：2023-02-14

申请号：CN202010079859.1

申请日：2020-02-04

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 黄桂芳 , 李权 , 叶俊杰 , 王伦基 , 任勇 , 韩蓝青

IPC分类号： G10L21/10 , G10L25/30 , G10L25/24 , G10L19/02 , G10L19/26 , G06V40/20 , G06V20/40 , G06V10/77 , G06V10/82 , G06T13/20 , G06T13/40

摘要： 本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质。通过使用长短期记忆网络对语音进行处理，能够达到较快的处理速度，以较少的耗时完成输出唇形关键点的过程，整个过程所造成的延迟较小。对长短期记忆网络的训练过程，能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析，更加准确地输出合适的唇形图像。设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程，通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理，可以消除预处理过程对长短期记忆网络形成的影响，使最终获得的唇形关键点具有合适的分布，便于后续应用生成对抗网络等进行视觉化处理。本发明广泛应用于语音数据技术领域。

8.

发明授权
一种视频分割方法、系统、设备及存储介质有权

公开(公告)号：CN112565885B

公开(公告)日：2023-01-06

申请号：CN202011374280.4

申请日：2020-11-30

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 胡玉针 , 叶俊杰 , 李权 , 王伦基 , 李嘉雄 , 朱杰 , 成秋喜 , 黄桂芳 , 韩蓝青

IPC分类号： H04N21/44 , H04N21/439 , H04N21/234 , H04N21/233 , G10L25/57 , G10L15/04 , G10L15/02 , G10L15/26 , G10L15/16 , G10L17/00 , G10L17/04 , G10L17/18 , G10L25/30 , G06V40/16 , G06V20/40 , G10L21/0208

摘要： 本发明公开了一种视频分割方法、系统、设备及存储介质，方法包括从第一视频中提取第一音频并去噪得到第二音频；分析第二音频获得第三音频和第一时间节点信息，并得到第一视频片段；对第三音频进行人声识别，得到第二视频片段；对第二视频片段进行人脸检测；对含人脸视频片段进行唇形同步检测；对唇形同步视频片段进行语音增强，进一步对已有视频片段进行语音识别，得到语音识别结果。本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等处理手段，能够自动化实现对视频的高精度切割。本发明可以广泛应用于视频处理技术领域。

9.

发明授权
一种虚拟人形象视频生成方法、系统、装置及存储介质有权

公开(公告)号：CN113192161B

公开(公告)日：2022-10-18

申请号：CN202110434686.5

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李权 , 叶俊杰 , 王伦基 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： G06T13/20 , G06T13/40 , G06N3/04 , G06N3/08 , G06V40/16

摘要： 本发明公开了一种虚拟人形象视频生成方法、系统、装置及存储介质。方法包括以下步骤：获取文本内容，并将所述文本内容转换为语音；根据所述文本内容或所述语音匹配出人物动作；将所述语音、所述人物动作输入至高清视频人物同步唇形模型，得到与所述语音同步的人脸唇形图像序列；将虚拟人形象以及所述人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人形象视频。本发明只需要一张简单的虚拟人形象照和一段文本内容，即可生成生动形象的虚拟人物形象视频，具有更快的制作效率与更加丰富的扩展形式。本发明可广泛应用于计算机技术领域内。

10.

发明授权
一种虚拟人讲课视频生成方法、系统、装置及存储介质有权

公开(公告)号：CN113194348B

公开(公告)日：2022-07-22

申请号：CN202110434673.8

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李权 , 王伦基 , 叶俊杰 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： H04N21/43 , H04N21/8547 , H04N21/44 , G10L13/02 , G06V40/16 , G06F40/279 , G06T13/40

摘要： 本发明公开一种虚拟人讲课视频生成方法、系统、装置及存储介质，包括：获取讲稿内容，将讲稿内容转换为语音，并根据讲稿内容生成讲稿视频；根据讲稿内容或语音匹配出人物动作；将语音、人物动作输入至高清视频人物同步唇形模型，得到与语音同步的人脸唇形图像序列；将虚拟人老师形象以及人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频；将高清虚拟人讲课视频输入视频抠图模型，得到无背景虚拟人讲课视频；将无背景虚拟人讲课视频嵌入至讲稿视频中，得到虚拟人老师讲课视频。本发明只需要一份讲稿和一张虚拟人老师形象，即可生成生动形象的虚拟人老师讲课视频，大大缩短视频课程内容制作与打磨的时间。本发明可广泛应用于教学技术领域内。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类