粤语拼音的预测方法、系统、设备及介质

    公开(公告)号:CN118151766A

    公开(公告)日:2024-06-07

    申请号:CN202410058013.8

    申请日:2024-01-15

    Inventor: 周邦健 沈伟林

    Abstract: 本发明公开了一种粤语拼音的预测方法、系统、设备及介质,包括:获取待预测粤语的目标文本和任一目标区域;将目标文本和目标区域输入预先构建的粤语拼音预测模型,预测粤语拼音;粤语拼音预测模型包括基底模型和辅助模块,基底模型用于预测目标文本在第一粤语区域的粤语拼音,辅助模块参与基底模型预测目标文本在其他粤语区域的粤语拼音。本发明在不破坏基底模型对第一粤语区域的拼音预测功能的前提下,引入辅助模块共同迁移学习生成粤语拼音预测模型,实现对粤语跨片区的拼音预测;避免根据粤语词典进行粤语文本的拼音预测准确性低的问题;避免部分片区粤语次级方言总使用人数较少,导致获取粤语次级方言拼音成本高的缺陷。

    虚拟换装方法、系统、设备、存储介质和程序产品

    公开(公告)号:CN120070670A

    公开(公告)日:2025-05-30

    申请号:CN202510171202.0

    申请日:2025-02-17

    Abstract: 本公开提供了一种虚拟换装方法、系统、设备、存储介质和程序产品。所述虚拟换装方法包括:获取用户图像和目标服装图像;对所述用户图像进行衣物分割处理,得到原始服装图像和人体图像;对所述目标服装图像进行分层处理,得到若干张服装子图像;基于所述原始服装图像对所述服装子图像进行变换,得到所述服装子图像对应的目标服装子图像;将所述人体图像和所述目标服装子图像进行融合处理,生成换装后的目标用户图像。本公开通过对服装进行分层处理以保留换装后的服装细节,并进行人体修复使得换装图像中的人物更加真实和自然,从而得到更高质量的换装图像,提高用户体验。

    人脸融合方法、系统、设备、介质和程序产品

    公开(公告)号:CN119339423A

    公开(公告)日:2025-01-21

    申请号:CN202411435650.9

    申请日:2024-10-15

    Abstract: 本公开提供了一种人脸融合方法、系统、设备、介质和程序产品,该人脸融合方法包括:获取至少两张待融合人脸图像的实际关键点;基于预设关键点和实际关键点,得到待融合人脸图像对应的位置调整系数;基于位置调整系数对待融合人脸图像进行调整,以得到调整后的待融合人脸图像;对调整后的待融合人脸图像进行人脸融合处理,以得到目标人脸融合图像。本公开通过预设关键点和待融合人脸图像的实际关键点,以得到位置调整系数,根据位置调整系数对待融合人脸图像进行调整,再进行人脸融合处理,改善了人脸融合图像的质量,提升了融合效果,降低了人脸融合处理的难度和资源消耗。

    一种自动化的音频处理及修复的数据预处理方法及系统

    公开(公告)号:CN118072735A

    公开(公告)日:2024-05-24

    申请号:CN202410194535.0

    申请日:2024-02-21

    Inventor: 周邦健 沈伟林

    Abstract: 本发明提供一种自动化的音频处理及修复的数据预处理方法及系统,其中方法包括:收集用户音频和对应标准文本;对所述用户音频进行预处理,得到预处理音频、音频识别文本、所述音频识别文本对应的时间戳;将所述用户音频切分成仅含单字的单字音频片段并存入数据库;将所述音频识别文本与所述对应标准文本进行差异比对,通过动态规划计算最小编辑距离的处理路径,得到每个待处理音频的最佳处理方式;对每个所述待处理音频进行有限次循环处理,拼接得到处理后的音频;修复所述处理后的音频,得到修复后的音频。本发明能够极大地减少人力劳动成本与时间成本。

    关键点生成方法及其模型的训练方法、视频生成方法

    公开(公告)号:CN118646938A

    公开(公告)日:2024-09-13

    申请号:CN202410706471.8

    申请日:2024-06-03

    Abstract: 本公开提供了一种关键点生成方法及其模型的训练方法、视频生成方法。训练方法包括:获取训练样本;将训练样本输入关键点生成模型,根据关键点生成模型输出第一视频帧至第三视频帧之间的视频帧的关键点预测数据;根据目标关节点的运动约束条件、关键点样本数据和关键点预测数据计算损失误差;运动约束条件包括多个目标关节点中相邻两个目标关节点在各视频帧中的相对位置关系不变;根据损失误差调整关键点生成模型的网络参数,直至满足迭代停止条件。本公开通过关键点生成模型预测两帧视频帧中人物动作关键点,并根据目标关节点的运动约束条件、关键点样本数据和关键点预测数据计算损失误差,使关键点生成模型预测值与真实值更接近,预测更准确。

    一种唇形合成模型设计方法、装置、存储介质和程序产品

    公开(公告)号:CN119888426A

    公开(公告)日:2025-04-25

    申请号:CN202411964767.6

    申请日:2024-12-27

    Abstract: 本发明提出一种唇形合成模型设计方法、装置、存储介质和程序产品,涉及计算机视觉技术领域。其中,唇形合成模型设计方法包括:数据收集及预处理,获得原面部图、原情绪标签及音频特征;使用生成器获得恢复面部图及恢复情绪标签;使用判别器对原面部图与恢复面部图进行对抗训练;使用图片重建损失函数、感知损失函数、对抗损失函数、情绪损失函数进行反向迭代;针对待生成视频进行模型微调训练。本发明提高了唇形合成图像生成的整体精确性和图像质量,避免了相关生成瑕疵和错误的出现。

Patent Agency Ranking