人体关键点生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN117520762A

    公开(公告)日:2024-02-06

    申请号:CN202311260150.1

    申请日:2023-09-26

    Abstract: 一种人体关键点生成方法及装置、计算机可读存储介质、终端,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:对目标音频进行第一特征提取得到第一特征序列,然后解码得到多组人脸关键点,第一特征序列至少包含目标音频的语义信息和韵律信息;对目标音频进行第二特征提取得到第二特征序列,第二特征序列包含目标音频的语义信息且不包含韵律信息;采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定相似度最高的样本特征序列;基于所述多组人脸关键点,以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。

    人脸情绪图像生成方法及装置、可读存储介质、终端

    公开(公告)号:CN117218224A

    公开(公告)日:2023-12-12

    申请号:CN202311057116.4

    申请日:2023-08-21

    Abstract: 一种人脸情绪图像生成方法及装置、可读存储介质、终端,所述方法包括:对目标情绪文本以及输入音频分别进行编码,以得到情绪特征向量和语音特征向量序列;将情绪特征向量分别与每个语音特征向量进行融合,得到融合特征向量序列;将融合特征向量序列输入预训练的表情预测模型,以得到第一人脸表情向量序列;基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染,以得到渲染人脸图像序列,所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的;将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型,以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

    视频的场景分类方法及装置、存储介质、终端

    公开(公告)号:CN113496208A

    公开(公告)日:2021-10-12

    申请号:CN202110551518.4

    申请日:2021-05-20

    Abstract: 一种视频的场景分类方法及装置、存储介质、终端,所述方法包括:获取输入视频,并从所述输入视频中提取图像序列,所述图像序列包括多帧图像,其中,每帧图像具有时间标签;将所述多帧图像输入至场景分类模型,以得到各帧图像的场景分类结果;根据相邻两帧图像之间的场景相似度对所述图像序列进行划分,以得到多个图像子序列,根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景分类结果。通过本发明的方案,可以对视频进行场景分类。

    一种文字驱动数字人的方法、系统及程序产品

    公开(公告)号:CN120086567A

    公开(公告)日:2025-06-03

    申请号:CN202510149612.5

    申请日:2025-02-11

    Abstract: 本发明公开一种文字驱动数字人的方法、系统及程序产品,属于AIGC技术领域;该方法包括:输入驱动文字、参考声音和形象图片;对参考声音进行识别,得到相应的参考文字;对参考声音进行特征提取,得到声音特征向量;根据驱动文字、声音特征向量和参考文字,得到驱动文字特征;根据驱动文字特征和形象图片,生成连续的图片结果;根据驱动文字特征,生成合成声音;根据连续的图片结果和合成声音,得到视频。本发明利用不同模态特征之间的关系,提高了驱动数字人的效果和效率。

    一种视觉Transformer模型设计方法、装置、存储介质和程序产品

    公开(公告)号:CN118840414B

    公开(公告)日:2025-04-29

    申请号:CN202411038198.2

    申请日:2024-07-30

    Abstract: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。

    一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质

    公开(公告)号:CN118052911B

    公开(公告)日:2025-02-18

    申请号:CN202410281747.2

    申请日:2024-03-12

    Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。

    图片的多标签分类方法、系统及电子设备

    公开(公告)号:CN118674995A

    公开(公告)日:2024-09-20

    申请号:CN202410909676.6

    申请日:2024-07-09

    Abstract: 本公开提供了一种图片的多标签分类方法、系统及电子设备。多标签分类方法包括:获取目标图片的第一图片特征;其中,第一图片特征包含冗余信息和噪音;基于多头注意力机制对第一图片特征进行压缩处理,以去除冗余信息,得到第二图片特征;基于稀疏编码对第二图片特征进行去噪处理,以得到目标图片特征;对目标图片特征所属的类别进行概率预测,以对目标图片进行多标签分类。基于多头注意力机制和稀疏编码依次对第一图片特征进行压缩和去噪处理,以去除第一图片特征中的以使得到的目标图片特征冗余信息和噪声,以使得到的目标图片特征只保留有价值的特征,进而使用该目标图片特征进行图片的多标签分类的效果更佳。

Patent Agency Ranking