-
公开(公告)号:CN119888415A
公开(公告)日:2025-04-25
申请号:CN202411908024.7
申请日:2024-12-23
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/776 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06T7/11 , G06T7/13
Abstract: 本发明提供一种抠像精度专家判别方法、系统、存储介质和程序产品,其中方法包括:获取真值蒙版图;使用边界检测技术识别真值蒙版图的边界区域,随机决定添加干扰项,得到处理好的训练数据集;对处理好的训练数据集使用ViT模型作为骨干网络进行训练,得到专家判别器;使用专家判别器通过评分机制对抠像模型生成的边界区域进行评估;将专家判别器的评分结果反馈到抠像模型中,作为损失函数的一部分,帮助抠像模型提升边界处理的精确度。本发明能够显著提高细微边界的分割精度,特别是在处理细小、复杂场景时,最终输出的前景图像或视频边界更加清晰、准确,实现了更为精准的边界分割。
-
公开(公告)号:CN118260377A
公开(公告)日:2024-06-28
申请号:CN202410191548.2
申请日:2024-02-21
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 罗粤清
Abstract: 本发明提供一种基于布尔代数的命题判断方法、演绎推理方法及系统,其中命题判断方法包括:输入待判断命题;通过语义模型对所述待判断命题进行预处理,提取类别、条件、结论,及所述类别、所述条件、所述结论的对应关系,得到预处理结果;基于所述预处理结果,将所述待判断命题转化为布尔表达式;计算所述布尔表达式的真值,得到所述待判断命题的判断结果。本发明能够快速得到结果,模型的规模大幅度减少,模型原理的解释性更强,所得结果的正确率显著增加,模型泛化能力得到保证,对训练数据集的要求较低。
-
公开(公告)号:CN118379321B
公开(公告)日:2025-05-23
申请号:CN202410476312.3
申请日:2024-04-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/194
Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。
-
公开(公告)号:CN119893015A
公开(公告)日:2025-04-25
申请号:CN202510059091.4
申请日:2025-01-14
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域。其中,字幕生成模型设计方法包括:输入一段语音和对应的正确内容,以及字幕单行最大限制字数;使用基于深度学习的人声检测模型进行人声检测;使用预训练的深度模型进行语音识别;使用所述正确内容与识别文字进行匹配、校正,得到字幕文字;根据字幕单行最大限制字数,对字幕文字进行分行、整合,得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯,字幕与音频呈现更高的匹配度,且字幕文字更加易读;本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数,进一步提高了生成字幕的可读性。
-
公开(公告)号:CN118377865A
公开(公告)日:2024-07-23
申请号:CN202410381970.4
申请日:2024-03-29
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F3/01 , G06T13/40 , G10L21/10 , G10L13/02
Abstract: 本发明提供一种基于大模型与深度学习的数字人实时问答方法及系统,其中方法包括以下步骤:生成静默音频;获得用户问题;在获得所述用户问题时,通过大模型将所述用户问题生成对应的问答文本后,转换为若干标准时长的问答音频;在没有获得所述用户问题时,生成静默音频后循环使用;基于所述问答音频、所述静默音频和对应的人脸图像,使用深度模型,计算并渲染出对应的人脸图像帧;对所述问答音频、所述静默音频和所述人脸图像帧进行处理,输入到对应的通道,得到实时渲染的唇型人脸视频;使用实时驱动技术将所述唇型人脸视频推送到用户端。本发明能够实现用户对虚拟现实产品的实时体验,并借助大模型的特性生成更加合理的互动模版,增加产品的灵活性。
-
公开(公告)号:CN120070670A
公开(公告)日:2025-05-30
申请号:CN202510171202.0
申请日:2025-02-17
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种虚拟换装方法、系统、设备、存储介质和程序产品。所述虚拟换装方法包括:获取用户图像和目标服装图像;对所述用户图像进行衣物分割处理,得到原始服装图像和人体图像;对所述目标服装图像进行分层处理,得到若干张服装子图像;基于所述原始服装图像对所述服装子图像进行变换,得到所述服装子图像对应的目标服装子图像;将所述人体图像和所述目标服装子图像进行融合处理,生成换装后的目标用户图像。本公开通过对服装进行分层处理以保留换装后的服装细节,并进行人体修复使得换装图像中的人物更加真实和自然,从而得到更高质量的换装图像,提高用户体验。
-
公开(公告)号:CN119810258A
公开(公告)日:2025-04-11
申请号:CN202411856077.9
申请日:2024-12-16
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/60 , G06T5/77 , G06T5/60 , G06T3/4038 , G06T3/4046 , G06V40/20 , G06V10/82
Abstract: 本发明提供一种动作迁移模型设计方法、装置、存储介质和程序产品,涉及计算机视觉技术领域。其中,动作迁移模型设计方法包括:训练掩图提取模型;获取两张人体图像,一张为原始图像I,另一张为驱动图像T;从原始图像中提取原始肢体掩图和原始肢体图像;从驱动图像中提取驱动肢体掩图;依据所述驱动肢体掩图,对原始肢体掩图及原始肢体图像进行变换,得到目标肢体掩图和目标肢体图像;使用动作生成模块生成目标人体图像;使用背景生成模块生成目标背景图像;使用合成模块生成最终图像。本发明提高了动作迁移图像生成的整体精确性和图像质量,避免了相关生成瑕疵和错误的出现。
-
公开(公告)号:CN119339423A
公开(公告)日:2025-01-21
申请号:CN202411435650.9
申请日:2024-10-15
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种人脸融合方法、系统、设备、介质和程序产品,该人脸融合方法包括:获取至少两张待融合人脸图像的实际关键点;基于预设关键点和实际关键点,得到待融合人脸图像对应的位置调整系数;基于位置调整系数对待融合人脸图像进行调整,以得到调整后的待融合人脸图像;对调整后的待融合人脸图像进行人脸融合处理,以得到目标人脸融合图像。本公开通过预设关键点和待融合人脸图像的实际关键点,以得到位置调整系数,根据位置调整系数对待融合人脸图像进行调整,再进行人脸融合处理,改善了人脸融合图像的质量,提升了融合效果,降低了人脸融合处理的难度和资源消耗。
-
公开(公告)号:CN118158488A
公开(公告)日:2024-06-07
申请号:CN202410138544.8
申请日:2024-01-31
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/81 , H04N21/233 , H04N21/234 , H04N21/25
Abstract: 本发明公开一种视频生成方法及装置,该方法包括:接收用户提交的视频文件和音频文件,视频文件的所有视频帧包含人脸图像;分别对视频文件和音频文件按照设定长度进行切分,得到多个一一对应的原始视频片段和原始音频片段;获取与各原始音频片段对应的音频特征;将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染,得到渲染后的视频图像;将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案,可以快速高效地生成虚拟人脸视频,提升用户对虚拟现实产品的实时体验。
-
公开(公告)号:CN118101874A
公开(公告)日:2024-05-28
申请号:CN202410350644.7
申请日:2024-03-26
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 罗粤清
IPC: H04N7/01 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种视频的插帧方法及插帧模型的训练方法,插帧方法包括:将第一视频的首帧图像和第二视频的尾帧图像的分辨率降低;对分辨率降低后的首帧图像和尾帧图像进行补帧处理,得到第一中间帧图像;对第一中间帧图像进行分辨率增强处理,以得到增强后的第一中间帧图像;将增强后的第一中间帧图像插入至第一视频和第二视频的首尾连接处,以完成视频的插帧。本公开对较低分辨率的图像进行插帧,相比起高分辨率,低分辨率图像的像素点的位移较小,插帧的效果更好,提高插帧的精准度,同时对较低分辨率的图像进行插帧,可以减小模型的计算量,提高模型的计算效率。
-
-
-
-
-
-
-
-
-