-
公开(公告)号:CN119888415A
公开(公告)日:2025-04-25
申请号:CN202411908024.7
申请日:2024-12-23
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/776 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06T7/11 , G06T7/13
Abstract: 本发明提供一种抠像精度专家判别方法、系统、存储介质和程序产品,其中方法包括:获取真值蒙版图;使用边界检测技术识别真值蒙版图的边界区域,随机决定添加干扰项,得到处理好的训练数据集;对处理好的训练数据集使用ViT模型作为骨干网络进行训练,得到专家判别器;使用专家判别器通过评分机制对抠像模型生成的边界区域进行评估;将专家判别器的评分结果反馈到抠像模型中,作为损失函数的一部分,帮助抠像模型提升边界处理的精确度。本发明能够显著提高细微边界的分割精度,特别是在处理细小、复杂场景时,最终输出的前景图像或视频边界更加清晰、准确,实现了更为精准的边界分割。
-
公开(公告)号:CN118151766A
公开(公告)日:2024-06-07
申请号:CN202410058013.8
申请日:2024-01-15
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明公开了一种粤语拼音的预测方法、系统、设备及介质,包括:获取待预测粤语的目标文本和任一目标区域;将目标文本和目标区域输入预先构建的粤语拼音预测模型,预测粤语拼音;粤语拼音预测模型包括基底模型和辅助模块,基底模型用于预测目标文本在第一粤语区域的粤语拼音,辅助模块参与基底模型预测目标文本在其他粤语区域的粤语拼音。本发明在不破坏基底模型对第一粤语区域的拼音预测功能的前提下,引入辅助模块共同迁移学习生成粤语拼音预测模型,实现对粤语跨片区的拼音预测;避免根据粤语词典进行粤语文本的拼音预测准确性低的问题;避免部分片区粤语次级方言总使用人数较少,导致获取粤语次级方言拼音成本高的缺陷。
-
公开(公告)号:CN120070670A
公开(公告)日:2025-05-30
申请号:CN202510171202.0
申请日:2025-02-17
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种虚拟换装方法、系统、设备、存储介质和程序产品。所述虚拟换装方法包括:获取用户图像和目标服装图像;对所述用户图像进行衣物分割处理,得到原始服装图像和人体图像;对所述目标服装图像进行分层处理,得到若干张服装子图像;基于所述原始服装图像对所述服装子图像进行变换,得到所述服装子图像对应的目标服装子图像;将所述人体图像和所述目标服装子图像进行融合处理,生成换装后的目标用户图像。本公开通过对服装进行分层处理以保留换装后的服装细节,并进行人体修复使得换装图像中的人物更加真实和自然,从而得到更高质量的换装图像,提高用户体验。
-
公开(公告)号:CN119810258A
公开(公告)日:2025-04-11
申请号:CN202411856077.9
申请日:2024-12-16
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/60 , G06T5/77 , G06T5/60 , G06T3/4038 , G06T3/4046 , G06V40/20 , G06V10/82
Abstract: 本发明提供一种动作迁移模型设计方法、装置、存储介质和程序产品,涉及计算机视觉技术领域。其中,动作迁移模型设计方法包括:训练掩图提取模型;获取两张人体图像,一张为原始图像I,另一张为驱动图像T;从原始图像中提取原始肢体掩图和原始肢体图像;从驱动图像中提取驱动肢体掩图;依据所述驱动肢体掩图,对原始肢体掩图及原始肢体图像进行变换,得到目标肢体掩图和目标肢体图像;使用动作生成模块生成目标人体图像;使用背景生成模块生成目标背景图像;使用合成模块生成最终图像。本发明提高了动作迁移图像生成的整体精确性和图像质量,避免了相关生成瑕疵和错误的出现。
-
公开(公告)号:CN119339423A
公开(公告)日:2025-01-21
申请号:CN202411435650.9
申请日:2024-10-15
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种人脸融合方法、系统、设备、介质和程序产品,该人脸融合方法包括:获取至少两张待融合人脸图像的实际关键点;基于预设关键点和实际关键点,得到待融合人脸图像对应的位置调整系数;基于位置调整系数对待融合人脸图像进行调整,以得到调整后的待融合人脸图像;对调整后的待融合人脸图像进行人脸融合处理,以得到目标人脸融合图像。本公开通过预设关键点和待融合人脸图像的实际关键点,以得到位置调整系数,根据位置调整系数对待融合人脸图像进行调整,再进行人脸融合处理,改善了人脸融合图像的质量,提升了融合效果,降低了人脸融合处理的难度和资源消耗。
-
公开(公告)号:CN118072735A
公开(公告)日:2024-05-24
申请号:CN202410194535.0
申请日:2024-02-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L15/26 , G10L25/51 , G10L21/007
Abstract: 本发明提供一种自动化的音频处理及修复的数据预处理方法及系统,其中方法包括:收集用户音频和对应标准文本;对所述用户音频进行预处理,得到预处理音频、音频识别文本、所述音频识别文本对应的时间戳;将所述用户音频切分成仅含单字的单字音频片段并存入数据库;将所述音频识别文本与所述对应标准文本进行差异比对,通过动态规划计算最小编辑距离的处理路径,得到每个待处理音频的最佳处理方式;对每个所述待处理音频进行有限次循环处理,拼接得到处理后的音频;修复所述处理后的音频,得到修复后的音频。本发明能够极大地减少人力劳动成本与时间成本。
-
公开(公告)号:CN119888426A
公开(公告)日:2025-04-25
申请号:CN202411964767.6
申请日:2024-12-27
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提出一种唇形合成模型设计方法、装置、存储介质和程序产品,涉及计算机视觉技术领域。其中,唇形合成模型设计方法包括:数据收集及预处理,获得原面部图、原情绪标签及音频特征;使用生成器获得恢复面部图及恢复情绪标签;使用判别器对原面部图与恢复面部图进行对抗训练;使用图片重建损失函数、感知损失函数、对抗损失函数、情绪损失函数进行反向迭代;针对待生成视频进行模型微调训练。本发明提高了唇形合成图像生成的整体精确性和图像质量,避免了相关生成瑕疵和错误的出现。
-
公开(公告)号:CN118379321A
公开(公告)日:2024-07-23
申请号:CN202410476312.3
申请日:2024-04-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/194
Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。
-
公开(公告)号:CN118233697A
公开(公告)日:2024-06-21
申请号:CN202410464923.6
申请日:2024-04-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08
Abstract: 传统的视频数据集切分方法主要依赖于手工标注,这一过程耗时耗力,且难以适应大规模视频数据处理的需求。本发明提供一种基于深度学习的自动切分新闻主播视频数据集的方法、系统及电子设备,包括:获取用户提交的新闻视频;对所述新闻视频进行第一次筛查,得到新闻主播视频和采访观众视频;对所述新闻主播视频和所述采访观众视频进行第二次筛查,过滤所述采访观众视频,得到过滤后的新闻主播视频;使用深度模型对所述过滤后的新闻主播视频进行逐帧筛查,得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。
-
公开(公告)号:CN120086567A
公开(公告)日:2025-06-03
申请号:CN202510149612.5
申请日:2025-02-11
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F18/213 , G06F18/214 , G06N3/04
Abstract: 本发明公开一种文字驱动数字人的方法、系统及程序产品,属于AIGC技术领域;该方法包括:输入驱动文字、参考声音和形象图片;对参考声音进行识别,得到相应的参考文字;对参考声音进行特征提取,得到声音特征向量;根据驱动文字、声音特征向量和参考文字,得到驱动文字特征;根据驱动文字特征和形象图片,生成连续的图片结果;根据驱动文字特征,生成合成声音;根据连续的图片结果和合成声音,得到视频。本发明利用不同模态特征之间的关系,提高了驱动数字人的效果和效率。
-
-
-
-
-
-
-
-
-