-
公开(公告)号:CN117994708A
公开(公告)日:2024-05-07
申请号:CN202410397545.4
申请日:2024-04-03
Applicant: 哈尔滨工业大学(威海)
IPC: G06V20/40 , G06N3/0455 , G06N3/0464 , G06N3/09 , G06V10/82 , G06V40/20
Abstract: 本发明公开了基于时序一致隐空间引导扩散模型的人体视频生成方法,包括以下步骤:从人物动作视频中提取骨骼序列并形成骨骼序列的视频;对输入视频、人物形象以及骨骼序列提取特征;输入特征至扩散模型中进行前向加噪及噪声预测;以加入的噪声作为监督定义约束并对扩散模型进行训练;将目标姿态序列和人物图片输入至训练好的扩散模型中;将时空坐标通过隐式网络映射为像素值;以目标视频以及目标姿态序列作为监督约束,学习模型参数;对隐式网络的输出视频进行特征提取,再次输入训练完成的扩散模型,得到人物动作视频。本发明设计迭代优化的策略,通过时序一致的隐空间引导提升扩散模型的生成结果连续性,以提高姿态引导的人体视频生成质量。
-
公开(公告)号:CN117994708B
公开(公告)日:2024-05-31
申请号:CN202410397545.4
申请日:2024-04-03
Applicant: 哈尔滨工业大学(威海)
IPC: G06V20/40 , G06N3/0455 , G06N3/0464 , G06N3/09 , G06V10/82 , G06V40/20
Abstract: 本发明公开了基于时序一致隐空间引导扩散模型的人体视频生成方法,包括以下步骤:从人物动作视频中提取骨骼序列并形成骨骼序列的视频;对输入视频、人物形象以及骨骼序列提取特征;输入特征至扩散模型中进行前向加噪及噪声预测;以加入的噪声作为监督定义约束并对扩散模型进行训练;将目标姿态序列和人物图片输入至训练好的扩散模型中;将时空坐标通过隐式网络映射为像素值;以目标视频以及目标姿态序列作为监督约束,学习模型参数;对隐式网络的输出视频进行特征提取,再次输入训练完成的扩散模型,得到人物动作视频。本发明设计迭代优化的策略,通过时序一致的隐空间引导提升扩散模型的生成结果连续性,以提高姿态引导的人体视频生成质量。
-
公开(公告)号:CN117974867A
公开(公告)日:2024-05-03
申请号:CN202410381197.1
申请日:2024-04-01
Applicant: 哈尔滨工业大学(威海)
IPC: G06T15/00 , G06V20/40 , G06V40/16 , G06V10/774 , G06V10/82
Abstract: 一种基于高斯点渲染的单目人脸化身生成方法,包括以下步骤:从单目人像视频中提取FLAME的表情参数和姿态参数;定义初始化空间、标准空间、形变空间;从点在形变空间与初始化空间的位置信息,获取点在形变空间中的高斯参数;将点在形变空间中的高斯参数输入渲染器,并渲染图像;将渲染图像与输入单目人像视频做图像损失,通过最小化该约束进行训练;每次训练迭代中加入增删点策略以实现点数增加;通过驱动视频对训练好的特定人物化身进行驱动。本发明设计迭代优化的策略,以及高斯点云的增删点策略,利用高斯抛雪球渲染器的渲染速度和渲染质量,通过预训练的线性混合蒙皮函数引导高斯参数网络和点的形变网络的训练,提高人像化身的生成质量。
-
公开(公告)号:CN117953137A
公开(公告)日:2024-04-30
申请号:CN202410353427.3
申请日:2024-03-27
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于动态表面反射场的人体重光照方法,包括以下步骤:将4D空间利用多平面及哈希表示进行分解,对多视角动态人体视频编码得到紧凑的时空位置编码;得到光线采样点的符号距离函数值、几何特征及颜色值;得到对应像素的深度、法向、颜色及材质;建模直接光照、光线可见性及间接光照;同时约束渲染图像,学习模型参数,得到动态人体重光照视频。本发明通过设计高效的4D隐式表示对人体表面反射场进行建模,克服了基于模板的方法中固有的拟合误差大和较低的运动自由度的问题,实现准确的动态人体表面反射场的估计。光照建模中通过光线追踪引入可见性及间接光,精准地模拟了二次弹射的着色效果,实现更准确的材质解算和重光照效果。
-
公开(公告)号:CN117953137B
公开(公告)日:2024-06-14
申请号:CN202410353427.3
申请日:2024-03-27
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于动态表面反射场的人体重光照方法,包括以下步骤:将4D空间利用多平面及哈希表示进行分解,对多视角动态人体视频编码得到紧凑的时空位置编码;得到光线采样点的符号距离函数值、几何特征及颜色值;得到对应像素的深度、法向、颜色及材质;建模直接光照、光线可见性及间接光照;同时约束渲染图像,学习模型参数,得到动态人体重光照视频。本发明通过设计高效的4D隐式表示对人体表面反射场进行建模,克服了基于模板的方法中固有的拟合误差大和较低的运动自由度的问题,实现准确的动态人体表面反射场的估计。光照建模中通过光线追踪引入可见性及间接光,精准地模拟了二次弹射的着色效果,实现更准确的材质解算和重光照效果。
-
公开(公告)号:CN119131265B
公开(公告)日:2025-04-04
申请号:CN202411595094.1
申请日:2024-11-11
Applicant: 哈尔滨工业大学(威海)
Abstract: 本公开的实施例提供了一种基于多视角一致性的三维全景场景理解方法及装置;涉及三维场景重建领域。方法包括将待重建场景的多视角图像输入预先训练好的三维全景辐射场模型,以便预先训练好的三维全景辐射场模型利用二维全景分割算法对待重建场景中各视角图像的几何特征、语义特征和颜色特征进行分割并对分割后的几何特征、语义特征和颜色特征分别进行视角一致性处理,获取视角一致的几何特征、语义特征和颜色特征;根据视角一致的几何特征、语义特征和颜色特征,通过预先训练好的三维全景辐射场模型重建待重建场景,获取待重建场景的全景图像。以此解决了多视角下语义歧义、几何结构失真的问题,提高了三维全景场景重建与理解的精度及一致性。
-
公开(公告)号:CN119131265A
公开(公告)日:2024-12-13
申请号:CN202411595094.1
申请日:2024-11-11
Applicant: 哈尔滨工业大学(威海)
Abstract: 本公开的实施例提供了一种基于多视角一致性的三维全景场景理解方法及装置;涉及三维场景重建领域。方法包括将待重建场景的多视角图像输入预先训练好的三维全景辐射场模型,以便预先训练好的三维全景辐射场模型利用二维全景分割算法对待重建场景中各视角图像的几何特征、语义特征和颜色特征进行分割并对分割后的几何特征、语义特征和颜色特征分别进行视角一致性处理,获取视角一致的几何特征、语义特征和颜色特征;根据视角一致的几何特征、语义特征和颜色特征,通过预先训练好的三维全景辐射场模型重建待重建场景,获取待重建场景的全景图像。以此解决了多视角下语义歧义、几何结构失真的问题,提高了三维全景场景重建与理解的精度及一致性。
-
公开(公告)号:CN117974867B
公开(公告)日:2024-06-21
申请号:CN202410381197.1
申请日:2024-04-01
Applicant: 哈尔滨工业大学(威海)
IPC: G06T15/00 , G06V20/40 , G06V40/16 , G06V10/774 , G06V10/82
Abstract: 一种基于高斯点渲染的单目人脸化身生成方法,包括以下步骤:从单目人像视频中提取FLAME的表情参数和姿态参数;定义初始化空间、标准空间、形变空间;从点在形变空间与初始化空间的位置信息,获取点在形变空间中的高斯参数;将点在形变空间中的高斯参数输入渲染器,并渲染图像;将渲染图像与输入单目人像视频做图像损失,通过最小化该约束进行训练;每次训练迭代中加入增删点策略以实现点数增加;通过驱动视频对训练好的特定人物化身进行驱动。本发明设计迭代优化的策略,以及高斯点云的增删点策略,利用高斯抛雪球渲染器的渲染速度和渲染质量,通过预训练的线性混合蒙皮函数引导高斯参数网络和点的形变网络的训练,提高人像化身的生成质量。
-
公开(公告)号:CN118015162B
公开(公告)日:2024-06-14
申请号:CN202410425334.7
申请日:2024-04-10
Applicant: 哈尔滨工业大学(威海)
IPC: G06T13/40 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于语音韵律学分解的三维数字人头部动画生成方法,包括以下步骤:通过语言内容、风格和基础频率编码器分别提取音频中的三者相关的潜在变量;通过周期位置编码获得额外的时序信息,使用跨模态偏差多头自注意力模块增强对于长动作序列的泛化性能;计算跨模态的对齐偏差并通过多头注意力模块对齐多模态信息,实现三维数字人头部动画中的唇部动作生成;通过基于Transformer的动作变分自编码器将唇部动作序列映射到低维潜在空间,设计条件概率扩散模型实现基于基础频率的三维数字人头部动画中的头部动作生成。本发明更加深层次挖掘了语音中韵律部分同唇部动作的关系,实现了更加高效的唇部动作序列生成。
-
公开(公告)号:CN109165658B
公开(公告)日:2021-08-13
申请号:CN201810986082.X
申请日:2018-08-28
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种基于Faster‑RCNN的强负样本水下目标检测方法,包括以下步骤:获取目标图像数据集,将目标图像输入卷积神经网络进行前向传播至共享的卷积层得到低维特征图;将获取的低维特征图一路输入至RPN网络得到正负样本及坐标,另一路继续前向传播得到高维特征图;对获取的与Ground Truth不相交的负样本进行图像求均值处理,实现基于图像亮度特征的相似度比较,完成与正样本相似的假负样本的筛除;将正样本、获取的筛选后的负样本与高维特征图共同输入到ROI Align层,提取正负样本建议区域的特征;将获取的建议区域特征传入全连接层,输出该区域的分类得分及回归后的坐标值。
-
-
-
-
-
-
-
-
-