Patent search ap:("北京中科闻歌科技股份有限公司") AND inv:"陈博" Page 1

1.

发明授权
一种虚拟角色的渲染方法、电子设备及存储介质有权

公开(公告)号：CN116996707B

公开(公告)日：2024-08-13

申请号：CN202310967284.0

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N21/234 , H04N21/44 , G06T3/4038 , G06N3/094 , G06N3/0475 , G06N3/0464 , G06T3/4046 , G06V10/82 , G06V40/16

Abstract: 本发明提供了一种虚拟角色的视频渲染方法，包括如下步骤：基于目标虚拟角色的第一人脸图像和目标虚拟角色对应的目标音频数据，获取到预设口型图像集；预设口型图像集包括若干个口型图像；根据若干个口型图像和第二人脸图像，获取到拼接人脸图像集；拼接人脸图像集包括若干个拼接人脸图像；根据若干个拼接人脸图像和目标换脸模型，获取到目标人脸图像集；目标人脸图像集包括若干个目标人脸图像；根据若干个目标人脸图像和目标虚拟角色的初始人脸图像，获取到目标虚拟角色对应的目标渲染视频。本发明能够实现虚拟角色视频的实时驱动与渲染，并能够应用于多种语言的语音播报。

2.

发明公开
一种图像去噪处理系统有权

公开(公告)号：CN116797493A

公开(公告)日：2023-09-22

申请号：CN202310964411.1

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王磊 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 罗引

IPC: G06T5/00 , G06T5/50 , G06V10/30 , G06V10/80

Abstract: 本发明涉及图像处理领域，尤其涉及一种图像去噪处理系统，包括：含噪人脸图像A、中间素描图像特征集合B=（B1，B2，……，Bn，……，BM）和文本特征C，所述系统实现以下步骤：对A和B1进行下采样得到第一个中间图像特征D1，对Di和Bi进行下采样得到Di+1，对DM和文本特征C进行注意力特征提取得到注意力图像特征E，对E进行上采样得到第一个中间噪声图像特征F1，对Fj和DM‑j进行上采样得到Fj+1，对FM‑1和D1进行上采样得到预测噪声图像G，根据A和G得到去噪人脸图像，将图像模态下的B、文本模态下的C与A进行信息融合，根据双模态的特征信息提高了对A的表征能力，提高了去噪结果的准确性。

3.

发明公开
一种多模态大型语言模型训练方法、电子设备及存储介质审中-实审

公开(公告)号：CN117409431A

公开(公告)日：2024-01-16

申请号：CN202311412797.1

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郝艳妮 , 陈博 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06V30/413 , G06V30/146 , G06V30/19

Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质，涉及计算机技术应用领域，包括：利用第一训练样本对图文对齐模型进行训练，得到训练后的图文对齐模型；第二训练样本对大型语言模型进行训练，第一训练样本对包含一个第一图像样本和对应的原始文本；第一图像样本仅包括自然图像；第二训练样本集包括多个第二训练样本对，每个第二训练样本对包含一个第二图像样本和对应的问答对文本，其中，第二图像样本中设置有目标检测框，第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据，且具有对图片中的区域准确定位的能力，能够解锁更加多样的多模态能力。

4.

发明公开
一种多模态大模型训练策略确定方法、电子设备及介质审中-实审

公开(公告)号：CN117407754A

公开(公告)日：2024-01-16

申请号：CN202311415357.1

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 魏靖烜 , 郝艳妮 , 陈博 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06F18/24 , G06F18/214 , G06F18/22 , G06N3/09

Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质，涉及多模态大模型训练策略确定领域，所述方法包括：获取初始多模态大模型对应的状态列表A；使用预设的一阶段训练策略，对初始多模态大模型进行训练，以得到第一中间多模态大模型列表B；使用预设的两阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第二中间多模态大模型列表C；获取B对应的第一性能参数列表α＝(α1，α2，α3)以及C对应的第二性能参数列表β＝(β1，β2，β3)；若α1＜β1、α2＜β2且α3＜β3，则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略；本发明能够达到确定出最佳的模型训练策略的目的。

5.

发明公开
基于语音驱动和人脸自驱动的虚拟人视频合成方法有权

公开(公告)号：CN116528019A

公开(公告)日：2023-08-01

申请号：CN202310724745.1

申请日：2023-06-19

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郑洋 , 陈博 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N21/81 , G06T13/20 , G06T13/40

Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，包括：对原始虚拟人视频素材进行预处理，得到首帧人脸图像为基准人脸图像的第一视频素材；利用设定口型驱动模型驱动所述第一视频素材，得到第二视频素材；将第一视频素材中的首帧人脸图像作为被驱动人脸图像，将第二视频素材中的人脸图像作为口型驱动图像序列，通过设定人脸驱动算法得到第三视频素材；利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像，得到第四视频素材；将第四视频素材和目标音频文件进行合成，得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节，发音和唇形吻合度高，可以对新的人物形象不加训练而快速迁移。

6.

发明公开
一种视觉驱动的虚拟角色处理系统有权

公开(公告)号：CN116452787A

公开(公告)日：2023-07-18

申请号：CN202310696721.X

申请日：2023-06-13

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郑洋 , 陈博 , 徐楠 , 方省 , 曹家 , 王磊

IPC: G06T19/20 , G06T7/55 , G06T7/70 , G06V40/16

Abstract: 本发明提供了一种视觉驱动的虚拟角色处理系统，该系统包括非虚拟角色图像组列表A={A1，A2，……，Ai，……，Am}、虚拟角色图像组B、处理器和存储有计算机程序的存储器，i=1，2，……，m，m为非虚拟角色图像组数量，Ai为第i帧非虚拟角色图像组，还包括根据A获得的非虚拟姿态图像组C={C1，C2，……，Ci，……，Cm}和非虚拟面部图像组D={D1，D2，……，Di，……，Dm}，以及根据虚拟角色图像组B获得的虚拟角色的姿态图像Bb和虚拟角色的表情图像Bm，当所述计算机程序被处理器执行时，将Ci与Bb对齐，将Di与Bm对齐，提高了虚拟角色与非虚拟角色的吻合度。

7.

发明授权
实时问答虚拟人视频生成方法、电子设备及存储介质有权

公开(公告)号：CN116996630B

公开(公告)日：2024-07-12

申请号：CN202310964008.9

申请日：2023-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 陈博 , 郑洋 , 李彤 , 徐楠 , 李军锋 , 曹家 , 王磊

IPC: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332

Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质，方法包括：基于待播报信息获取对应的场景视频；对音频文件进行特征提取，得到对应的音频特征；基于场景视频和音频特征，生成口型与音频特征相匹配的场景视频，作为初始人脸驱动视频；基于场景视频中的目标图像以及初始驱动视频，获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征；基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征，得到目标人脸驱动视频；利用目标人脸驱动视频中的人脸替换场景视频中的人脸，得到虚拟人视频；将虚拟人视频和音频文件进行合成，得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。

8.

发明授权
逆转图像重建方法、装置、设备及可读存储介质有权

公开(公告)号：CN116862803B

公开(公告)日：2024-05-24

申请号：CN202310864682.X

申请日：2023-07-13

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 徐楠 , 郝艳妮 , 陈博 , 李军锋 , 曹家 , 王磊

IPC: G06T5/60 , G06V10/56 , G06V10/82 , G06N3/0464 , G06V10/44 , G06N3/048

Abstract: 本公开涉及一种逆转图像重建方法、装置、设备及可读存储介质。本公开通过获取待逆转图像，所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像，对所述待逆转图像进行逆转处理，得到逆转图像。由于对所述待逆转图像进行逆转处理，得到逆转图像，进而可以对逆转图像的隐空间特征进行约束，使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布，在图像编辑中减少图像伪影的出现，从而提高真实图像的图像编辑的效果。并且，本公开实施例可以适用于高质量图像以及低质量图像，提高了逆转方法的泛化性能，提升了低质量图像逆转的重建效果，保证了GAN逆转方法对图像质量的稳定性。

9.

发明授权
一种多模态大型语言模型训练方法、电子设备及存储介质有权

公开(公告)号：CN117409431B

公开(公告)日：2024-04-26

申请号：CN202311412797.1

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 郝艳妮 , 陈博 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06V30/413 , G06V30/146 , G06V30/19

Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质，涉及计算机技术应用领域，包括：利用第一训练样本对图文对齐模型进行训练，得到训练后的图文对齐模型；第二训练样本对大型语言模型进行训练，第一训练样本对包含一个第一图像样本和对应的原始文本；第一图像样本仅包括自然图像；第二训练样本集包括多个第二训练样本对，每个第二训练样本对包含一个第二图像样本和对应的问答对文本，其中，第二图像样本中设置有目标检测框，第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据，且具有对图片中的区域准确定位的能力，能够解锁更加多样的多模态能力。

10.

发明授权
一种多模态大模型训练策略确定方法、电子设备及介质有权

公开(公告)号：CN117407754B

公开(公告)日：2024-04-19

申请号：CN202311415357.1

申请日：2023-10-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 罗引 , 魏靖烜 , 郝艳妮 , 陈博 , 马先钦 , 徐楠 , 曹家 , 王磊

IPC: G06F18/24 , G06F18/214 , G06F18/22 , G06N3/09

Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质，涉及多模态大模型训练策略确定领域，所述方法包括：获取初始多模态大模型对应的状态列表A；使用预设的一阶段训练策略，对初始多模态大模型进行训练，以得到第一中间多模态大模型列表B；使用预设的两阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第二中间多模态大模型列表C；获取B对应的第一性能参数列表α＝(α1，α2，α3)以及C对应的第二性能参数列表β＝(β1，β2，β3)；若α1＜β1、α2＜β2且α3＜β3，则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略；本发明能够达到确定出最佳的模型训练策略的目的。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification