-
公开(公告)号:CN117520762A
公开(公告)日:2024-02-06
申请号:CN202311260150.1
申请日:2023-09-26
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人体关键点生成方法及装置、计算机可读存储介质、终端,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:对目标音频进行第一特征提取得到第一特征序列,然后解码得到多组人脸关键点,第一特征序列至少包含目标音频的语义信息和韵律信息;对目标音频进行第二特征提取得到第二特征序列,第二特征序列包含目标音频的语义信息且不包含韵律信息;采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定相似度最高的样本特征序列;基于所述多组人脸关键点,以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。
-
公开(公告)号:CN117218224A
公开(公告)日:2023-12-12
申请号:CN202311057116.4
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06V10/774 , G06V10/771
Abstract: 一种人脸情绪图像生成方法及装置、可读存储介质、终端,所述方法包括:对目标情绪文本以及输入音频分别进行编码,以得到情绪特征向量和语音特征向量序列;将情绪特征向量分别与每个语音特征向量进行融合,得到融合特征向量序列;将融合特征向量序列输入预训练的表情预测模型,以得到第一人脸表情向量序列;基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染,以得到渲染人脸图像序列,所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的;将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型,以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。
-
公开(公告)号:CN117152283A
公开(公告)日:2023-12-01
申请号:CN202310944172.3
申请日:2023-07-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30
Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统,涉及AIGC技术领域,包括:输入驱动音频和部分人脸图像;对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;将音频特征和图像特征输入到扩散模型,生成完整图像特征;将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。本发明充分利用扩散模型以及特征融合,实现准确清晰地生成和音频相对应的人脸图像。
-
公开(公告)号:CN113496208A
公开(公告)日:2021-10-12
申请号:CN202110551518.4
申请日:2021-05-20
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种视频的场景分类方法及装置、存储介质、终端,所述方法包括:获取输入视频,并从所述输入视频中提取图像序列,所述图像序列包括多帧图像,其中,每帧图像具有时间标签;将所述多帧图像输入至场景分类模型,以得到各帧图像的场景分类结果;根据相邻两帧图像之间的场景相似度对所述图像序列进行划分,以得到多个图像子序列,根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景分类结果。通过本发明的方案,可以对视频进行场景分类。
-
公开(公告)号:CN120086567A
公开(公告)日:2025-06-03
申请号:CN202510149612.5
申请日:2025-02-11
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F18/213 , G06F18/214 , G06N3/04
Abstract: 本发明公开一种文字驱动数字人的方法、系统及程序产品,属于AIGC技术领域;该方法包括:输入驱动文字、参考声音和形象图片;对参考声音进行识别,得到相应的参考文字;对参考声音进行特征提取,得到声音特征向量;根据驱动文字、声音特征向量和参考文字,得到驱动文字特征;根据驱动文字特征和形象图片,生成连续的图片结果;根据驱动文字特征,生成合成声音;根据连续的图片结果和合成声音,得到视频。本发明利用不同模态特征之间的关系,提高了驱动数字人的效果和效率。
-
公开(公告)号:CN118840414B
公开(公告)日:2025-04-29
申请号:CN202411038198.2
申请日:2024-07-30
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。
-
公开(公告)号:CN118052911B
公开(公告)日:2025-02-18
申请号:CN202410281747.2
申请日:2024-03-12
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/00 , G06N3/0475
Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。
-
公开(公告)号:CN118233697B
公开(公告)日:2025-02-07
申请号:CN202410464923.6
申请日:2024-04-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08
Abstract: 传统的视频数据集切分方法主要依赖于手工标注,这一过程耗时耗力,且难以适应大规模视频数据处理的需求。本发明提供一种切分新闻主播视频数据集的方法、系统及电子设备,包括:获取用户提交的新闻主播视频;对所述新闻主播视频进行快速筛查,得到包含新闻主播和采访观众的人脸数据库;对所述包含新闻主播和采访观众的人脸数据库进行过滤,过滤掉采访观众的人脸数据,得到仅含新闻主播的人脸数据库;根据所述仅含新闻主播的人脸数据库,使用深度模型对所述新闻主播视频进行逐帧筛查,得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。
-
公开(公告)号:CN119313789A
公开(公告)日:2025-01-14
申请号:CN202411304862.3
申请日:2024-09-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/40 , G06F18/2431 , G06F18/21 , G06N3/0464 , G06N3/08 , G10L25/63 , G10L25/57
Abstract: 本发明提供一种带表情的数字人生成方法、系统、存储介质和程序产品,其中方法包括以下步骤:输入音频和相应图片;将音频输入到音频情绪提取网络提取相应的情绪类别;根据情绪类别从表情模板中抽取对应的模板;将模板和图片一起输入到生成网络生成相应的带表情基础图片;将基础图片经过处理以后,提取图像特征,同时对音频进行音频特征提取;将图像特征和音频特征输入到解码网络得到带表情的图片。本发明提供一种带表情的数字人生成方法、系统、存储介质和程序产品,能够通过引入相应的音频情绪提取和表情模板,实现对于带表情的,并且是多种表情变化的数字人生成任务。
-
公开(公告)号:CN118674995A
公开(公告)日:2024-09-20
申请号:CN202410909676.6
申请日:2024-07-09
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/764 , G06V10/30 , G06V10/82 , G06V10/40 , G06N3/0464
Abstract: 本公开提供了一种图片的多标签分类方法、系统及电子设备。多标签分类方法包括:获取目标图片的第一图片特征;其中,第一图片特征包含冗余信息和噪音;基于多头注意力机制对第一图片特征进行压缩处理,以去除冗余信息,得到第二图片特征;基于稀疏编码对第二图片特征进行去噪处理,以得到目标图片特征;对目标图片特征所属的类别进行概率预测,以对目标图片进行多标签分类。基于多头注意力机制和稀疏编码依次对第一图片特征进行压缩和去噪处理,以去除第一图片特征中的以使得到的目标图片特征冗余信息和噪声,以使得到的目标图片特征只保留有价值的特征,进而使用该目标图片特征进行图片的多标签分类的效果更佳。
-
-
-
-
-
-
-
-
-