-
公开(公告)号:CN117611938A
公开(公告)日:2024-02-27
申请号:CN202311371318.6
申请日:2023-10-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V10/774 , G06V10/74 , G06F18/214 , G06F18/22
Abstract: 本公开涉及一种多模态模型训练方法、装置、设备及存储介质。本公开通过连接图文对齐模型以及大型语言模型,将图文对齐模型得到的视觉表达信息输入大型语言模型中,提高了多模态信息的对齐效果,使得多模态模型对于图像视觉信息的理解能力得到提升。
-
公开(公告)号:CN117275068A
公开(公告)日:2023-12-22
申请号:CN202311224982.8
申请日:2023-09-21
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V40/16 , G06V40/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种含不确定性引导的测试阶段训练人脸伪造检测方法及系统,属于深度学习以及计算机视觉技术领域,方法包括:获取待判别的图像作为初始输入图像;获取所述初始输入图像的高频信息图像;提取所述高频信息图像中不同尺度的RGB特征和频域注意力特征,将所述RGB特征和所述频域注意力特征进行融合;将所述融合后RGB特征和所述频域特征进行交叉注意力计算,得到融合特征;基于所述融合特征,并根据不同的输入图像和任务需求,自适应选择融合方式,得到判别特征,并基于所述判别特征进行分类任务。本发明充分利用频域和RGB域中有效的信息挖掘伪造痕迹,利用不确定性引导的测试阶段训练策略,对网络中的不确定性进行优化,提高了泛化性能。
-
公开(公告)号:CN116996707A
公开(公告)日:2023-11-03
申请号:CN202310967284.0
申请日:2023-08-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N21/234 , H04N21/44 , G06T3/40 , G06N3/094 , G06N3/0475 , G06N3/0464 , G06V10/82 , G06V40/16
Abstract: 本发明提供了一种虚拟角色的视频渲染方法,包括如下步骤:基于目标虚拟角色的第一人脸图像和目标虚拟角色对应的目标音频数据,获取到预设口型图像集;预设口型图像集包括若干个口型图像;根据若干个口型图像和第二人脸图像,获取到拼接人脸图像集;拼接人脸图像集包括若干个拼接人脸图像;根据若干个拼接人脸图像和目标换脸模型,获取到目标人脸图像集;目标人脸图像集包括若干个目标人脸图像;根据若干个目标人脸图像和目标虚拟角色的初始人脸图像,获取到目标虚拟角色对应的目标渲染视频。本发明能够实现虚拟角色视频的实时驱动与渲染,并能够应用于多种语言的语音播报。
-
-