-
公开(公告)号:CN117234369B
公开(公告)日:2024-06-21
申请号:CN202311057771.X
申请日:2023-08-21
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F3/0481 , G06T13/40 , G06V10/80
摘要: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN116664746A
公开(公告)日:2023-08-29
申请号:CN202310620674.0
申请日:2023-05-29
申请人: 华院计算技术(上海)股份有限公司
摘要: 一种人脸重建方法及装置、计算机可读存储介质、终端,所述方法包括:分别对原始人脸图像及其深度图像进行特征提取,得到人脸特征矩阵以及深度图特征矩阵;对所述人脸特征矩阵以及所述深度图特征矩阵进行拼接处理,得到融合特征矩阵;将所述融合特征矩阵输入预测模型,得到优化形状矩阵和优化表情矩阵;基于所述优化形状矩阵和所述优化表情矩阵,对初始化纹理矩阵和初始化光照控制矩阵进行迭代优化,以确定优化纹理矩阵和优化光照控制矩阵。采用上述方案有助于改进人脸重建的效果。
-
公开(公告)号:CN116664731A
公开(公告)日:2023-08-29
申请号:CN202310753806.7
申请日:2023-06-21
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06T13/40 , G06V10/774 , G10L15/06
摘要: 一种人脸动画生成方法及装置、计算机可读存储介质、终端,方法包括:对输入音频进行特征提取,得到语音特征序列;基于语音特征序列、参考人脸动画以及预训练模型,进行多轮迭代,得到多帧人脸生成动画,其中,在每轮迭代中,采用下述方式确定当前轮的人脸生成动画:基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列,并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接;将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型,得到预测噪声;采用预测噪声对当前轮的初始化人脸动画进行去噪处理,得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。
-
公开(公告)号:CN116580263A
公开(公告)日:2023-08-11
申请号:CN202310562166.1
申请日:2023-05-18
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06V10/774 , G06V10/44 , G06V10/80 , G06V10/776 , G06T13/40 , G06T13/20 , G06N3/0464
摘要: 本发明公开了一种图像处理模型训练、处理方法、系统、设备及其介质。该模型的训练方法包括:获取原始三维面部数据和若干样本音频数据;提取原始三维面部数据的样本面部特征;获取样本音频数据的样本音频特征;基于样本音频特征调整样本面部特征,以得到对应的样本三维面部数据;以每组的样本面部特征与样本音频特征作为输入,对应的样本三维面部数据作为输出,对预设网络进行训练,以得到图像处理模型。通过图卷积神经网络获取面部特征和多层次处理得到音频特征,通过卷积神经网络的训练,得到的图像处理模型具有更高的精度、泛用性和鲁棒性。计算融合特征的融合损失和样本三维面部数据的生成损失,提高模型训练的效率和准确性。
-
公开(公告)号:CN115239789B
公开(公告)日:2023-06-27
申请号:CN202210565544.7
申请日:2022-05-23
申请人: 华院计算技术(上海)股份有限公司
摘要: 一种用于确定液体体积的方法及装置、存储介质、终端,所述方法包括:获取待处理图像,所述待处理图像包括所述目标容器的影像;确定单位长度,所述单位长度是指单位体积的液体在所述待处理图像中在第一方向上对应的像素点的数量,所述第一方向为所述刻度线的分布方向;确定液面位置和参考位置,其中,所述液面位置为所述液面在所述待处理图像中在所述第一方向上的位置,所述参考位置为参考刻度值对应的刻度线在所述待处理图像中在所述第一方向上的位置;根据所述液面位置、所述参考位置、所述参考刻度值和所述单位长度,确定所述液体的体积。本发明提供了一种通用性、鲁棒性更好的确定液体体积的方法。
-
公开(公告)号:CN116071472A
公开(公告)日:2023-05-05
申请号:CN202310099764.X
申请日:2023-02-08
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06T13/40 , G06T13/20 , G06T3/40 , G06V40/16 , G06V10/80 , G06V10/77 , G06N3/0464 , G06N3/08
摘要: 一种图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:根据输入的音频信息,得到模板图像,所述模板图像用于表征和所述音频信息相适配的脸部姿态,所述脸部姿态至少包括唇形;对所述音频信息进行特征提取,得到第一特征信息;对图像信息进行特征提取,得到第二特征信息,所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到;对第三特征信息进行解码处理,生成目标脸部图像,其中,所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。本申请提供的方案能够生成高质量的脸部图像。
-
公开(公告)号:CN118840414A
公开(公告)日:2024-10-25
申请号:CN202411038198.2
申请日:2024-07-30
申请人: 华院计算技术(上海)股份有限公司
摘要: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。
-
公开(公告)号:CN118585876A
公开(公告)日:2024-09-03
申请号:CN202410487378.2
申请日:2024-04-22
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06F18/241 , G06F18/2415 , G06F18/25 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047
摘要: 本发明提供一种基于缺陷描述的缺陷分类方法及系统,其中方法包括以下步骤:获得缺陷图像和对应的缺陷描述文本;将所述缺陷图像送入视觉编码器中进行编码,得到视觉特征;将所述缺陷描述文本送入语义编码器中进行编码,得到语义特征;将所述视觉特征送入多层感知机,经过激活函数,得到在每个候选标签上的概率预测p1,计算损失L1;将所述视觉特征和所述语义特征进行融合后,经过激活函数,得到在每个候选标签上的概率预测p2,计算损失L2;对所述损失L1和所述损失L2进行融合,得到最终损失;对所述概率预测p1和所述概率预测p2进行融合,取融合后最大概率值所属标签为缺陷预测结果。本发明能够更加准确地界定不同类别之间的区别,提高分类的准确率。
-
公开(公告)号:CN117218224B
公开(公告)日:2024-09-03
申请号:CN202311057116.4
申请日:2023-08-21
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: G06T11/00 , G06V40/16 , G06V10/80 , G06V10/774 , G06V10/771
摘要: 一种人脸情绪图像生成方法及装置、可读存储介质、终端,所述方法包括:对目标情绪文本以及输入音频分别进行编码,以得到情绪特征向量和语音特征向量序列;将情绪特征向量分别与每个语音特征向量进行融合,得到融合特征向量序列;将融合特征向量序列输入预训练的表情预测模型,以得到第一人脸表情向量序列;基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染,以得到渲染人脸图像序列,所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的;将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型,以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。
-
公开(公告)号:CN118158488A
公开(公告)日:2024-06-07
申请号:CN202410138544.8
申请日:2024-01-31
申请人: 华院计算技术(上海)股份有限公司
IPC分类号: H04N21/81 , H04N21/233 , H04N21/234 , H04N21/25
摘要: 本发明公开一种视频生成方法及装置,该方法包括:接收用户提交的视频文件和音频文件,视频文件的所有视频帧包含人脸图像;分别对视频文件和音频文件按照设定长度进行切分,得到多个一一对应的原始视频片段和原始音频片段;获取与各原始音频片段对应的音频特征;将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染,得到渲染后的视频图像;将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案,可以快速高效地生成虚拟人脸视频,提升用户对虚拟现实产品的实时体验。
-
-
-
-
-
-
-
-
-