-
公开(公告)号:CN118158488A
公开(公告)日:2024-06-07
申请号:CN202410138544.8
申请日:2024-01-31
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/81 , H04N21/233 , H04N21/234 , H04N21/25
Abstract: 本发明公开一种视频生成方法及装置,该方法包括:接收用户提交的视频文件和音频文件,视频文件的所有视频帧包含人脸图像;分别对视频文件和音频文件按照设定长度进行切分,得到多个一一对应的原始视频片段和原始音频片段;获取与各原始音频片段对应的音频特征;将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染,得到渲染后的视频图像;将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案,可以快速高效地生成虚拟人脸视频,提升用户对虚拟现实产品的实时体验。
-
公开(公告)号:CN116863034B
公开(公告)日:2024-05-14
申请号:CN202310850135.6
申请日:2023-07-11
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。
-
公开(公告)号:CN116847091A
公开(公告)日:2023-10-03
申请号:CN202310882709.8
申请日:2023-07-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N19/169 , H04N19/119 , H04N19/176 , H04N19/154
Abstract: 本公开提供了一种图像编码方法、系统、设备及介质,所述方法包括:获取待处理的图像;将所述图像划分为多个区域块,并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布;确定所述图像的图像视觉信息及图像语义信息,所述图像视觉信息根据每个所述区域块的区域视觉信息生成,所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成;根据所述图像语义信息及所述图像视觉信息对图像进行编码,得到图像编码。本公开能够使得图像编码更丰富、更准确,能够扩展于各种图像任务重,提升编码在下游的应用率;另外,通过区域块确定图像视觉信息和图像语义信息,能够提升图像编码的准确率。
-
公开(公告)号:CN116129004B
公开(公告)日:2023-09-15
申请号:CN202310135294.8
申请日:2023-02-17
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 沈旭立
Abstract: 一种数字人生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。采用上述方案,可以生成带有情绪的数字人,且实现数字人的情绪可编辑化。
-
公开(公告)号:CN116129004A
公开(公告)日:2023-05-16
申请号:CN202310135294.8
申请日:2023-02-17
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 沈旭立
Abstract: 一种数字人生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。采用上述方案,可以生成带有情绪的数字人,且实现数字人的情绪可编辑化。
-
公开(公告)号:CN118379321B
公开(公告)日:2025-05-23
申请号:CN202410476312.3
申请日:2024-04-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/194
Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。
-
公开(公告)号:CN119893015A
公开(公告)日:2025-04-25
申请号:CN202510059091.4
申请日:2025-01-14
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域。其中,字幕生成模型设计方法包括:输入一段语音和对应的正确内容,以及字幕单行最大限制字数;使用基于深度学习的人声检测模型进行人声检测;使用预训练的深度模型进行语音识别;使用所述正确内容与识别文字进行匹配、校正,得到字幕文字;根据字幕单行最大限制字数,对字幕文字进行分行、整合,得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯,字幕与音频呈现更高的匹配度,且字幕文字更加易读;本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数,进一步提高了生成字幕的可读性。
-
公开(公告)号:CN119831882A
公开(公告)日:2025-04-15
申请号:CN202411860635.9
申请日:2024-12-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T5/70 , G06T5/60 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本公开提供了一种人脸修复模型的训练方法、人脸修复方法、系统和设备,该训练方法包括:基于预先训练好的生成对抗网络蒸馏得到人脸修复模块;基于预设卷积神经网络训练得到降噪去除模块;基于通道分割特征变换层连接人脸修复模块和降噪去除模块的潜在特征,以得到目标人脸修复模型。本公开将包括深度可分离调制卷积层的人脸修复模块和包括深度可分离层的降噪去除模块连接,得到目标人脸修复模型,采用了更适合边缘设备的深度可分离卷积,显著地减小了模型的计算量和参数量,降低了计算资源消耗,提高了运行效率,更适用于边缘设备,提升了普适性。
-
公开(公告)号:CN119478136A
公开(公告)日:2025-02-18
申请号:CN202411581532.9
申请日:2024-11-06
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/60 , G06T5/70 , G06T3/4038 , G06N3/045 , G06N3/08
Abstract: 本发明提供一种文本生成图像的方法、系统、存储介质和程序产品,方法包括:对给定的待形变图像和给定的训练目标图像进行编码;对给定的文本输入进行编码;利用图像关键点提取方法,获得待形变图像和训练目标图像的图像关键点集合;利用薄板样条差值方法,获得图像关键点的变化方向;将图像关键点的变化方向和文本编码,拼接到待形变图像的编码,进行扩散模型的加噪操作;利用扩散模型的去噪操作,获得去噪后的图片编码;将去噪后的图片编码,利用可训练的解码器进行图像生成;利用生成的图像和给定的训练目标图像组成损失函数,训练解码器网络,获得薄板样条差值引导的文生图模型。本发明能够在保持位置合理性的情况下生成丰富的图像。
-
公开(公告)号:CN118823635A
公开(公告)日:2024-10-22
申请号:CN202410825520.X
申请日:2024-06-24
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V20/40
Abstract: 本发明提供一种视频未来事件预测方法、装置、存储介质和程序产品,其中方法包括以下步骤:输入视频和视频内容描述;将视频拆分为视频片段;从视频片段中过滤出视频关键片段和视频关键帧;采用因果注意力机制,从视频关键片段和视频关键帧中提取影响未来事件的信息;构建思维推理链,引导模型;通过语言生成模型解码,预测视频未来事件。本发明克服了在处理复杂的、多变的现实世界场景时的局限性,增强了对复杂场景和细微变化的理解能力,实现了对复杂视频数据的深度分析和未来事件的准确预测,提高了在未来事件预测方面的准确性和可靠性,能够基于当前数据预测长期趋势和潜在风险,为决策提供更全面的支持。
-
-
-
-
-
-
-
-
-