开放式问答及多模态大模型的训练方法、装置及相关设备

    公开(公告)号:CN117235232A

    公开(公告)日:2023-12-15

    申请号:CN202311377895.6

    申请日:2023-10-23

    Abstract: 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备,为了促使多模态大模型关注到空间信息,在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本,空间信息用于表示训练图像中包含的对象在训练图像中的空间位置,采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练,可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上,进一步关注到图像中对象的空间位置,也即使得多模态大模型具备检测物体空间位置的能力。在此基础上,当将多模态大模型应用于开放式问答任务,在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。

    一种视频检测方法、装置、电子设备及存储介质

    公开(公告)号:CN112651319B

    公开(公告)日:2023-12-05

    申请号:CN202011518646.0

    申请日:2020-12-21

    Abstract: 本申请公开了一种视频检测方法、装置、电子设备及存储介质,所述方法包括:获取待检测的视频;提取音频特征数据;提取视频特征数据;确定音频特征数据和视频特征数据之间的特征距离;判断视频的真伪,基于音频特征数据、视频特征数据和特征距离来判断视频的真伪。本方法中,使用音频特征数据对视频特征数据中的嘴部区域执行注意力机制,强化了视频的嘴部区域的特征,同时,由于考虑了音频、视频、音视频多模态特征距离三个维度的虚假视频判别,从而能够有效的提升算法泛化性和鲁棒性,使得该方法具有泛化性好、可靠性高等优点。(56)对比文件肖辉等.融合多特征的视频帧间篡改检测算法《.信号处理》.2020,第6卷(第1期),第84-93页.梁瑞刚等.视听觉深度伪造检测技术研究综述《.信息安全学报》.2020,第5卷(第2期),第1-17页.N. Bhakt et al.A Novel Framework forReal and Fake Smile Detection fromVideos《.2018 Second InternationalConference on Electronics, Communicationand Aerospace Technology 》.2018,第 1327-1330页.张衡等.基于聚类网络的文本-视频特征学习《.计算机科学》.2020,第1-5.肖易明;张海剑;孙洪;丁昊.引入注意力机制的视频声源定位.信号处理.2019,第35卷(第12期),第1969-1978页.

    基于语音的三维人脸模型驱动方法及相关装置

    公开(公告)号:CN116188649B

    公开(公告)日:2023-10-13

    申请号:CN202310472056.6

    申请日:2023-04-27

    Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置,基于目标语音的语音特征和目标情绪特征,按照偏移预测参数,进行三维模型顶点偏移预测,按照预测得到的三维模型顶点偏移数据,驱动三维基础模型,得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征,进行三维模型顶点偏移预测处理而确定的;4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型,按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据,提高了样本数据的数据量和情绪多样性,从而提高了语音驱动三维人脸模型的准确度和情绪化效果。

    文图生成方法、装置、设备及存储介质

    公开(公告)号:CN116863036A

    公开(公告)日:2023-10-10

    申请号:CN202310865239.4

    申请日:2023-07-13

    Abstract: 本申请公开了一种文图生成方法、装置、设备及存储介质,本申请借助大语言模型的语言能力,令大语言模型执行对原始文本描述内容进行加工处理的任务,该任务为使得大语言模型所得到的编辑后文本描述内容相对于原始文本描述内容的丰富度更高的任务,获取大语言模型输出层所提取的文本表征,该文本表征可以作为大语言模型输出的编辑后文本描述内容对应的特征表示,由于编辑后文本描述内容相对于原始文本描述内容的信息丰富度更高,因此获取的输出层所提取的文本表征相对于传统对原始文本描述内容的编码特征,其特征表达能力更强,将该文本表征送入预配置的文图生成模型,得到模型生成图像,该生成图像与文本内容更加匹配,也即图像效果更佳。

    虚拟人交互方法、装置、电子设备及存储介质

    公开(公告)号:CN115390678B

    公开(公告)日:2023-03-31

    申请号:CN202211326573.4

    申请日:2022-10-27

    Abstract: 本申请提出一种虚拟人交互方法、装置、电子设备及存储介质,通过对目标对象的音视频数据进行视线追踪和情感分析,确定目标对象的视线轨迹特征和情感状态;根据目标对象的情感状态和虚拟形象的当前情感状态,预测虚拟形象的下一时刻情感状态;根据目标对象和虚拟形象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟形象当前时刻的交互状态参数,预测虚拟形象下一时刻的交互状态参数,交互状态参数包括视线方向。本方案基于目标对象的情感状态与虚拟形象的情感状态,对目标对象和虚拟形象进行视线交互预测,实现了虚拟形象与目标对象在不同情感状态下的视线交互,提高了目标对象与虚拟形象的交互真实感和交互体验。

    脸部绑定方法、装置、设备及存储介质

    公开(公告)号:CN115393532A

    公开(公告)日:2022-11-25

    申请号:CN202211326540.X

    申请日:2022-10-27

    Abstract: 本申请提供了一种脸部绑定方法、装置、设备及存储介质,涉及人工智能技术领域,具体实现方案为:利用获取到的目标对象的脸部图像,在目标对象对应的三维人脸模型中确定三维人脸模型的脸部特征区域;在脸部特征区域中确定对应的三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系;根据三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系,确定目标对象的三维人脸模型顶点与脸部骨骼点的绑定关系根据本申请的技术方案,能够在三维建模软件中实现三维人脸模型顶点与脸部骨骼点的自动绑定,提高脸部绑定效率,进而提升虚拟形象的生成效率。

    一种虚拟角色模型处理方法、装置、电子设备及存储介质

    公开(公告)号:CN115393487A

    公开(公告)日:2022-11-25

    申请号:CN202211327162.7

    申请日:2022-10-27

    Abstract: 本申请提供一种虚拟角色模型处理方法、装置、电子设备及存储介质,所述虚拟角色模型处理方法,在获得具有目标纹理的参考图像,以及虚拟角色三维模型的二维图像后,基于对参考图像的纹理编码和对二维图像的结构编码,获得参考图像的目标纹理特征编码和二维图像的目标结构特征编码,保证了纹理特征和结构特征的精确解耦,从而确保后续在对所述目标结构特征编码和目标纹理特征编码进行联合解码的过程中,参考图像的目标纹理特征能够有效迁移至虚拟角色三维模型,有效的保证了虚拟角色三维模型的纹理真实性。

    神经网络的训练方法及基于神经网络的行人属性识别方法

    公开(公告)号:CN109829356B

    公开(公告)日:2021-04-06

    申请号:CN201811482879.2

    申请日:2018-12-05

    Abstract: 本发明提供了一种神经网络的训练方法及基于神经网络的行人属性识别方法,该识别方法包括:获取待识别的目标行人图像;对目标行人图像作身体区域分割,获取与不同身体区域对应的多个局部图像;将多个局部图像分别输入至预先经过训练的与不同身体区域相对应的多个属性识别网络,得到与不同身体区域对应的多组目标行人属性;其中,目标属性识别网络用于结合目标行人图像中行人的性别信息,以及目标局部图像中目标身体区域的方向信息,来识别目标行人图像中行人的全身属性,以及专属于目标身体区域的行人属性;对多组目标行人属性进行汇总处理,得到目标行人图像的多个目标行人属性。本发明能够在识别行人属性时,提升泛化能力以及识别准确度。

Patent Agency Ranking