基于多视角一致性的三维全景场景理解方法及装置

    公开(公告)号:CN119131265B

    公开(公告)日:2025-04-04

    申请号:CN202411595094.1

    申请日:2024-11-11

    Abstract: 本公开的实施例提供了一种基于多视角一致性的三维全景场景理解方法及装置;涉及三维场景重建领域。方法包括将待重建场景的多视角图像输入预先训练好的三维全景辐射场模型,以便预先训练好的三维全景辐射场模型利用二维全景分割算法对待重建场景中各视角图像的几何特征、语义特征和颜色特征进行分割并对分割后的几何特征、语义特征和颜色特征分别进行视角一致性处理,获取视角一致的几何特征、语义特征和颜色特征;根据视角一致的几何特征、语义特征和颜色特征,通过预先训练好的三维全景辐射场模型重建待重建场景,获取待重建场景的全景图像。以此解决了多视角下语义歧义、几何结构失真的问题,提高了三维全景场景重建与理解的精度及一致性。

    基于多视角一致性的三维全景场景理解方法及装置

    公开(公告)号:CN119131265A

    公开(公告)日:2024-12-13

    申请号:CN202411595094.1

    申请日:2024-11-11

    Abstract: 本公开的实施例提供了一种基于多视角一致性的三维全景场景理解方法及装置;涉及三维场景重建领域。方法包括将待重建场景的多视角图像输入预先训练好的三维全景辐射场模型,以便预先训练好的三维全景辐射场模型利用二维全景分割算法对待重建场景中各视角图像的几何特征、语义特征和颜色特征进行分割并对分割后的几何特征、语义特征和颜色特征分别进行视角一致性处理,获取视角一致的几何特征、语义特征和颜色特征;根据视角一致的几何特征、语义特征和颜色特征,通过预先训练好的三维全景辐射场模型重建待重建场景,获取待重建场景的全景图像。以此解决了多视角下语义歧义、几何结构失真的问题,提高了三维全景场景重建与理解的精度及一致性。

    一种基于高斯点渲染的单目人脸化身生成方法

    公开(公告)号:CN117974867B

    公开(公告)日:2024-06-21

    申请号:CN202410381197.1

    申请日:2024-04-01

    Abstract: 一种基于高斯点渲染的单目人脸化身生成方法,包括以下步骤:从单目人像视频中提取FLAME的表情参数和姿态参数;定义初始化空间、标准空间、形变空间;从点在形变空间与初始化空间的位置信息,获取点在形变空间中的高斯参数;将点在形变空间中的高斯参数输入渲染器,并渲染图像;将渲染图像与输入单目人像视频做图像损失,通过最小化该约束进行训练;每次训练迭代中加入增删点策略以实现点数增加;通过驱动视频对训练好的特定人物化身进行驱动。本发明设计迭代优化的策略,以及高斯点云的增删点策略,利用高斯抛雪球渲染器的渲染速度和渲染质量,通过预训练的线性混合蒙皮函数引导高斯参数网络和点的形变网络的训练,提高人像化身的生成质量。

    一种基于语音韵律学分解的三维数字人头部动画生成方法

    公开(公告)号:CN118015162B

    公开(公告)日:2024-06-14

    申请号:CN202410425334.7

    申请日:2024-04-10

    Abstract: 本发明公开了一种基于语音韵律学分解的三维数字人头部动画生成方法,包括以下步骤:通过语言内容、风格和基础频率编码器分别提取音频中的三者相关的潜在变量;通过周期位置编码获得额外的时序信息,使用跨模态偏差多头自注意力模块增强对于长动作序列的泛化性能;计算跨模态的对齐偏差并通过多头注意力模块对齐多模态信息,实现三维数字人头部动画中的唇部动作生成;通过基于Transformer的动作变分自编码器将唇部动作序列映射到低维潜在空间,设计条件概率扩散模型实现基于基础频率的三维数字人头部动画中的头部动作生成。本发明更加深层次挖掘了语音中韵律部分同唇部动作的关系,实现了更加高效的唇部动作序列生成。

    一种热力图感知的金字塔人脸超分辨率网络

    公开(公告)号:CN113344783A

    公开(公告)日:2021-09-03

    申请号:CN202110637474.7

    申请日:2021-06-08

    Abstract: 本发明公开了一种热力图感知的金字塔人脸超分辨率网络,属于人脸图像超分辨率技术领域。本发明设计了一种新颖的热力图感知卷积,该卷积可以针对人脸图像中不同区域生成空间变化的卷积核,从而有效地提高了重建性能。此外,为了恢复具有更好视觉质量和更饱满人脸细节的SR结果,采用了对抗损失和感知损失来微调模型。本发明充分利用了人脸结构的先验知识,在视觉效果和客观评价方面都达到了最先进的性能。

    基于点云补全的机械臂抓取方法及装置

    公开(公告)号:CN119107348A

    公开(公告)日:2024-12-10

    申请号:CN202411578120.X

    申请日:2024-11-07

    Abstract: 本公开的实施例提供了一种基于点云补全的机械臂抓取方法及装置;涉及机器人抓取领域。方法包括调整当前拍摄角度,获取待抓取对象在当前拍摄角度下的点云数据;将点云数据与之前获取的其他拍摄角度下的点云数据进行配准与合并;将合并后的点云数据输入点云补全网络,生成待抓取对象的完整几何结构;根据生成的完整几何结构利用抓取姿态检测方法生成抓取姿势;利用运动规划方法控制机械臂采用抓取姿势对待抓取对象进行抓取操作;若抓取失败,则重复以上抓取过程,直至抓取成功。以此方式,可以大幅减少对多视角或复杂传感器布置的依赖,利用动态更新机制不断优化抓取姿势,提高抓取的成功率、鲁棒性以及机械臂在复杂环境下的适用性与实用性。

    一种基于语音韵律学分解的三维数字人头部动画生成方法

    公开(公告)号:CN118015162A

    公开(公告)日:2024-05-10

    申请号:CN202410425334.7

    申请日:2024-04-10

    Abstract: 本发明公开了一种基于语音韵律学分解的三维数字人头部动画生成方法,包括以下步骤:通过语言内容、风格和基础频率编码器分别提取音频中的三者相关的潜在变量;通过周期位置编码获得额外的时序信息,使用跨模态偏差多头自注意力模块增强对于长动作序列的泛化性能;计算跨模态的对齐偏差并通过多头注意力模块对齐多模态信息,实现三维数字人头部动画中的唇部动作生成;通过基于Transformer的动作变分自编码器将唇部动作序列映射到低维潜在空间,设计条件概率扩散模型实现基于基础频率的三维数字人头部动画中的头部动作生成。本发明更加深层次挖掘了语音中韵律部分同唇部动作的关系,实现了更加高效的唇部动作序列生成。

    一种热力图感知的金字塔人脸超分辨率网络

    公开(公告)号:CN113344783B

    公开(公告)日:2022-10-21

    申请号:CN202110637474.7

    申请日:2021-06-08

    Abstract: 本发明公开了一种热力图感知的金字塔人脸超分辨率网络,属于人脸图像超分辨率技术领域。本发明设计了一种新颖的热力图感知卷积,该卷积可以针对人脸图像中不同区域生成空间变化的卷积核,从而有效地提高了重建性能。此外,为了恢复具有更好视觉质量和更饱满人脸细节的SR结果,采用了对抗损失和感知损失来微调模型。本发明充分利用了人脸结构的先验知识,在视觉效果和客观评价方面都达到了最先进的性能。

    基于时序一致隐空间引导扩散模型的人体视频生成方法

    公开(公告)号:CN117994708A

    公开(公告)日:2024-05-07

    申请号:CN202410397545.4

    申请日:2024-04-03

    Abstract: 本发明公开了基于时序一致隐空间引导扩散模型的人体视频生成方法,包括以下步骤:从人物动作视频中提取骨骼序列并形成骨骼序列的视频;对输入视频、人物形象以及骨骼序列提取特征;输入特征至扩散模型中进行前向加噪及噪声预测;以加入的噪声作为监督定义约束并对扩散模型进行训练;将目标姿态序列和人物图片输入至训练好的扩散模型中;将时空坐标通过隐式网络映射为像素值;以目标视频以及目标姿态序列作为监督约束,学习模型参数;对隐式网络的输出视频进行特征提取,再次输入训练完成的扩散模型,得到人物动作视频。本发明设计迭代优化的策略,通过时序一致的隐空间引导提升扩散模型的生成结果连续性,以提高姿态引导的人体视频生成质量。

Patent Agency Ranking