-
公开(公告)号:CN118377865A
公开(公告)日:2024-07-23
申请号:CN202410381970.4
申请日:2024-03-29
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F3/01 , G06T13/40 , G10L21/10 , G10L13/02
Abstract: 本发明提供一种基于大模型与深度学习的数字人实时问答方法及系统,其中方法包括以下步骤:生成静默音频;获得用户问题;在获得所述用户问题时,通过大模型将所述用户问题生成对应的问答文本后,转换为若干标准时长的问答音频;在没有获得所述用户问题时,生成静默音频后循环使用;基于所述问答音频、所述静默音频和对应的人脸图像,使用深度模型,计算并渲染出对应的人脸图像帧;对所述问答音频、所述静默音频和所述人脸图像帧进行处理,输入到对应的通道,得到实时渲染的唇型人脸视频;使用实时驱动技术将所述唇型人脸视频推送到用户端。本发明能够实现用户对虚拟现实产品的实时体验,并借助大模型的特性生成更加合理的互动模版,增加产品的灵活性。
-
公开(公告)号:CN116847091B
公开(公告)日:2024-04-26
申请号:CN202310882709.8
申请日:2023-07-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N19/169 , H04N19/119 , H04N19/176 , H04N19/154
Abstract: 本公开提供了一种图像编码方法、系统、设备及介质,所述方法包括:获取待处理的图像;将所述图像划分为多个区域块,并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布;确定所述图像的图像视觉信息及图像语义信息,所述图像视觉信息根据每个所述区域块的区域视觉信息生成,所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成;根据所述图像语义信息及所述图像视觉信息对图像进行编码,得到图像编码。本公开能够使得图像编码更丰富、更准确,能够扩展于各种图像任务重,提升编码在下游的应用率;另外,通过区域块确定图像视觉信息和图像语义信息,能够提升图像编码的准确率。
-
公开(公告)号:CN116664731B
公开(公告)日:2024-03-29
申请号:CN202310753806.7
申请日:2023-06-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/40 , G06V10/774 , G10L15/06
Abstract: 一种人脸动画生成方法及装置、计算机可读存储介质、终端,方法包括:对输入音频进行特征提取,得到语音特征序列;基于语音特征序列、参考人脸动画以及预训练模型,进行多轮迭代,得到多帧人脸生成动画,其中,在每轮迭代中,采用下述方式确定当前轮的人脸生成动画:基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列,并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接;将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型,得到预测噪声;采用预测噪声对当前轮的初始化人脸动画进行去噪处理,得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。
-
公开(公告)号:CN117234369A
公开(公告)日:2023-12-15
申请号:CN202311057771.X
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0481 , G06T13/40 , G06V10/80
Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN117078811A
公开(公告)日:2023-11-17
申请号:CN202311120340.3
申请日:2023-08-31
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/20 , G06T13/40 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06N3/092 , G06V40/16 , G10L21/10 , G10L25/03
Abstract: 本发明公开了一种模型训练方法、图像生成方法、动画生成方法及系统,该模型训练方法包括:获取语音信号训练样本与对应的图像;提取语音信号训练样本的中间特征;从图像中提取表情系数;以中间特征为扩散模型的输入,基于表情系数训练扩散模型,得到训练好的表情系数预测模型。本发明以语音信号训练样本的中间特征作为扩散模型的输入,基于从与语音信号训练样本中提取的表情系数训练扩散模型,得到的表情系数预测模型在将语音信号转化为相应的表情系数时具有随机性,从而实现生成多样化的表情,提高用户在交互过程中的体验。
-
公开(公告)号:CN116580720A
公开(公告)日:2023-08-11
申请号:CN202310187677.X
申请日:2023-03-01
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L21/028 , G10L25/18 , G10L25/30 , G06V40/16 , G06V20/40
Abstract: 本发明公开了一种基于视听语音分离的说话人视觉激活解释方法及系统,方法包括:由说话人视频片段抽取说话人音频片段,与噪声音频片段混合得到混合语音片段;基于残差神经网络提取唇部运动特征和面部特征,基于U‑net进行音频特征提取,并对齐构成多模态深度特征;确定视听语音分离模型的模型组件和损失函数并完成训练;解码视频流信息并输入部署的视听语音分离模型,并根据输出的预测频谱图计算得分函数,根据得分函数计算视觉模态不同层的贡献度,通过热力图生成视觉模态激活图。通过本发明的技术方案,创新性地提出了适用于视听语音分离特殊输出的可视化解释方法,得到了超过目前最先进水平的分离效果,能够在更复杂条件下稳定工作。
-
公开(公告)号:CN116385270A
公开(公告)日:2023-07-04
申请号:CN202310412411.0
申请日:2023-04-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T3/40 , G06T3/00 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
-
公开(公告)号:CN115239789A
公开(公告)日:2022-10-25
申请号:CN202210565544.7
申请日:2022-05-23
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种用于确定液体体积的方法及装置、存储介质、终端,所述方法包括:获取待处理图像,所述待处理图像包括所述目标容器的影像;确定单位长度,所述单位长度是指单位体积的液体在所述待处理图像中在第一方向上对应的像素点的数量,所述第一方向为所述刻度线的分布方向;确定液面位置和参考位置,其中,所述液面位置为所述液面在所述待处理图像中在所述第一方向上的位置,所述参考位置为参考刻度值对应的刻度线在所述待处理图像中在所述第一方向上的位置;根据所述液面位置、所述参考位置、所述参考刻度值和所述单位长度,确定所述液体的体积。本发明提供了一种通用性、鲁棒性更好的确定液体体积的方法。
-
公开(公告)号:CN120086567A
公开(公告)日:2025-06-03
申请号:CN202510149612.5
申请日:2025-02-11
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F18/213 , G06F18/214 , G06N3/04
Abstract: 本发明公开一种文字驱动数字人的方法、系统及程序产品,属于AIGC技术领域;该方法包括:输入驱动文字、参考声音和形象图片;对参考声音进行识别,得到相应的参考文字;对参考声音进行特征提取,得到声音特征向量;根据驱动文字、声音特征向量和参考文字,得到驱动文字特征;根据驱动文字特征和形象图片,生成连续的图片结果;根据驱动文字特征,生成合成声音;根据连续的图片结果和合成声音,得到视频。本发明利用不同模态特征之间的关系,提高了驱动数字人的效果和效率。
-
公开(公告)号:CN118840414B
公开(公告)日:2025-04-29
申请号:CN202411038198.2
申请日:2024-07-30
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。
-
-
-
-
-
-
-
-
-