Patent search ap:("北京百度网讯科技有限公司") AND inv:"王凯思源" Page 1

1.

发明公开
视频生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119031203A

公开(公告)日：2024-11-26

申请号：CN202411266270.7

申请日：2024-09-10

Applicant: 北京百度网讯科技有限公司

Inventor： 王凯思源 , 杨权威 , 周航 , 冯浩城

IPC: H04N21/81 , H04N21/234 , H04N21/2343 , H04N21/44 , H04N21/4402 , G06V40/10 , G06V40/16

Abstract: 本申请公开了视频生成方法、装置、电子设备及存储介质，涉人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于AIGC、数字人、智能电商等场景。实现方案为：获取驱动视频中驱动对象的姿态热图序列；对姿态热图序列进行姿态编码，得到驱动对象的第一姿态特征，在第一姿态特征中添加噪声，得到第二姿态特征；获取展示有目标对象的目标图像，并对目标图像进行外观编码得到目标对象的第一外观特征；获取驱动视频中驱动对象的手部关键点信息，并根据手部关键点信息，获取驱动对象的手部特征；根据第二姿态特征、第一外观特征及手部特征进行特征融合，得到第一融合特征；对第一融合特征进行解码，生成展示有目标对象的目标视频。

2.

发明公开
交互图像生成模型、交互图像的生成方法、装置及设备审中-实审

公开(公告)号：CN119863563A

公开(公告)日：2025-04-22

申请号：CN202411899883.4

申请日：2024-12-20

Applicant: 北京百度网讯科技有限公司

Inventor： 王凯思源 , 范颖颖 , 周航 , 冯浩城

IPC: G06T17/00 , G06N3/0455 , G06V40/20 , G06V10/54 , G06V10/80 , G06V10/82

Abstract: 本公开提出一种交互图像生成模型、交互图像的生成方法、装置及设备，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，应用于人工智能生成内容AIGC等场景。提出交互图像生成模型，包括物体特征处理网络、结构关系处理网络、手部结构特征处理网络、手部复原网络、物体复原网络及解码器。交互图像生成模型对包含目标物体的图像进行处理，得到目标物体外观特征；将参考关系图与外观特征进行融合，输出交互特征；将手部结构特征处理网络输出的手部结构特征、交互特征及已生成的手部纹理特征进行融合，得到第一特征图；将第一特征图及已生成的物体纹理特征进行融合，得到待解码的第二特征图；对第二特征图进行解码，生成交互图。

3.

发明公开
图像处理方法、图像处理模型和训练方法审中-实审

公开(公告)号：CN116228897A

公开(公告)日：2023-06-06

申请号：CN202310251906.X

申请日：2023-03-10

Applicant: 北京百度网讯科技有限公司

Inventor： 周航 , 王凯思源 , 刘经拓

IPC: G06T9/00 , G06V10/44 , G06V10/26

Abstract: 本公开提供了一种图像处理方法、图像处理模型和训练方法，人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、数字人等场景。实现方案为：确定包括目标对象的目标图像序列；对所述目标图像序列进行编码，以得到目标离散序列，其中所述目标离散序列中的每个元素对应于所述目标图像序列中的图像的一局部区域；基于各个元素对应的局部区域的解码图像特征确定对应于所述目标图像序列的解码特征序列；对所述解码特征序列进行解码，以得到包括所述目标对象的预测图像序列。

4.

发明公开
数字人驱动模型生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119992416A

公开(公告)日：2025-05-13

申请号：CN202510065975.0

申请日：2025-01-15

Applicant: 北京百度网讯科技有限公司

Inventor： 官佳智 , 王凯思源 , 徐志良 , 周航 , 冯浩城

IPC: G06V20/40 , G06V20/70 , G06T13/20 , G06T13/40

Abstract: 本公开提供了数字人驱动模型生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型、增强现实等技术领域，可应用于数字人等场景。具体实现方案为：基于参考视频确定第一合成序列、第二合成序列、语音特征标记序列、参考特征标记和面部特征标记；基于第一合成序列、语音特征标记序列、参考特征标记和面部特征标记训练第一子模型，以使第一子模型输出第一驱动视频；基于第二合成序列、参考特征标记和面部特征标记训练第二子模型，以使第二子模型输出第二驱动视频；基于训练后的第一子模型和第二子模型生成数字人驱动模型。本方案能提高数字人驱动模型生成数字人视频的质量。

5.

发明授权
一种图像生成方法、装置、电子设备和介质有权

公开(公告)号：CN115359166B

公开(公告)日：2023-03-24

申请号：CN202211283618.4

申请日：2022-10-20

Applicant: 北京百度网讯科技有限公司

Inventor： 周航 , 王凯思源 , 何栋梁 , 刘经拓

IPC: G06T15/00 , G06T13/40 , G06V40/16

Abstract: 本公开提供了一种图像生成方法、装置、电子设备和介质，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景。具体实现方案为：确定目标人物形象在目标图像中的第一面部特征，并根据第一面部特征生成目标人物形象的第一面部轮廓图像；确定样本人物形象在样本图像中的第二面部特征，并根据第二面部特征生成样本人物形象的第二面部轮廓图像；根据目标图像、第一面部轮廓图像和第二面部轮廓图像，生成包含目标人物形象的待展示图像。本公开能够提高根据样本图像生成包含目标人物形象的待展示图像的速度，减少了待展示图像生成所消耗的时间。

6.

发明公开
一种图像生成方法、装置、电子设备和介质有权

公开(公告)号：CN115359166A

公开(公告)日：2022-11-18

申请号：CN202211283618.4

申请日：2022-10-20

Applicant: 北京百度网讯科技有限公司

Inventor： 周航 , 王凯思源 , 何栋梁 , 刘经拓

IPC: G06T15/00 , G06T13/40 , G06V40/16

Abstract: 本公开提供了一种图像生成方法、装置、电子设备和介质，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景。具体实现方案为：确定目标人物形象在目标图像中的第一面部特征，并根据第一面部特征生成目标人物形象的第一面部轮廓图像；确定样本人物形象在样本图像中的第二面部特征，并根据第二面部特征生成样本人物形象的第二面部轮廓图像；根据目标图像、第一面部轮廓图像和第二面部轮廓图像，生成包含目标人物形象的待展示图像。本公开能够提高根据样本图像生成包含目标人物形象的待展示图像的速度，减少了待展示图像生成所消耗的时间。

7.

发明公开
一种数字人视频生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119729145A

公开(公告)日：2025-03-28

申请号：CN202411898013.5

申请日：2024-12-20

Applicant: 北京百度网讯科技有限公司

Inventor： 王凯思源 , 何声一 , 周航 , 冯浩城

IPC: H04N21/81 , H04N21/85 , G10L21/10 , G10L25/57 , G06T13/20 , G06T13/40

Abstract: 本公开提供了一种数字人视频生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型、增强现实等技术领域，可应用于数字人等场景。具体实现方案为：根据参考视频和驱动语音生成目标人物的人体骨骼特征点序列、人体脸部序列、手部序列和唇形序列；根据人体骨骼特征点序列和手部序列，生成目标人物的身体序列；根据身体序列、人体脸部序列和唇形序列，生成数字人视频，数字人与目标人物相匹配。

8.

发明公开
视频生成和视频生成模型的训练方法、装置、设备和介质审中-实审

公开(公告)号：CN119399839A

公开(公告)日：2025-02-07

申请号：CN202411598040.0

申请日：2024-11-08

Applicant: 北京百度网讯科技有限公司

Inventor： 徐志良 , 周航 , 吴冶 , 王凯思源 , 李莹莹 , 冯浩城

IPC: G06V40/20 , G06V20/40 , G06V10/46 , G06V10/82 , G06N3/0455 , G06V10/80 , G06T9/00

Abstract: 本公开提供了一种视频生成和视频生成模型的训练方法、装置、设备和介质，涉及计算机视觉、深度学习、大模型等技术领域，可应用于AIGC、数字人、智能电商等场景。具体实现方案为：获取动作姿态序列和展示有目标对象的参考图像；其中，动作姿态序列中的元素表征根据人体关键点生成的动作姿态；对参考图像进行编码，得到目标对象的外观特征；从动作姿态序列中提取姿态指导特征，并根据姿态指导特征、噪声特征和外观特征，生成目标特征；对目标特征进行解码，得到展示有目标对象的动作驱动视频。

9.

发明公开
视频生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119031204A

公开(公告)日：2024-11-26

申请号：CN202411267110.4

申请日：2024-09-10

Applicant: 北京百度网讯科技有限公司

Inventor： 王凯思源 , 官佳智 , 周航 , 冯浩城

IPC: H04N21/81 , H04N21/234 , H04N21/2343 , H04N21/44 , H04N21/4402 , G06V40/10 , G06V40/16

Abstract: 本申请公开了视频生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于AIGC、数字人、智能电商等场景。具体实现方案为：获取展示有目标对象的参考图像对应的参考人体信号及驱动视频对应的驱动人体信号；对参考人体信号和驱动人体信号分别进行动态特征提取，得到第一动态特征和第二动态特征；对参考图像进行纹理特征提取，得到第一纹理特征；对第一动态特征、第二动态特征及第一纹理特征进行交叉注意力计算，得到第二纹理特征；对第二纹理特征、第二动态特征及噪声进行拼接，得到第一拼接特征；根据第一拼接特征进行去噪处理，生成展示有目标对象的目标视频。

10.

发明授权
图像处理方法、图像处理模型和训练方法有权

公开(公告)号：CN116228897B

公开(公告)日：2024-04-23

申请号：CN202310251906.X

申请日：2023-03-10

Applicant: 北京百度网讯科技有限公司

Inventor： 周航 , 王凯思源 , 刘经拓

IPC: G06T9/00 , G06V10/44 , G06V10/26

Abstract: 本公开提供了一种图像处理方法、图像处理模型和训练方法，人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、数字人等场景。实现方案为：确定包括目标对象的目标图像序列；对所述目标图像序列进行编码，以得到目标离散序列，其中所述目标离散序列中的每个元素对应于所述目标图像序列中的图像的一局部区域；基于各个元素对应的局部区域的解码图像特征确定对应于所述目标图像序列的解码特征序列；对所述解码特征序列进行解码，以得到包括所述目标对象的预测图像序列。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification