基于三维场景的稀疏重建方法和装置

    公开(公告)号:CN117953151A

    公开(公告)日:2024-04-30

    申请号:CN202311856410.1

    申请日:2023-12-29

    申请人: 清华大学

    发明人: 穆太江 陈浩翔

    摘要: 本发明提供了一种基于三维场景的稀疏重建方法和装置,所述方法包括:获取目标场景的稀疏图像以及目标相机的粗糙相机参数;将所述稀疏图像和所述粗糙相机参数输入预先训练的场景重建网络中,以得到所述场景重建网络输出的新视角下的场景图像;其中,所述场景重建网络是利用稀疏图像样本的几何参数与相机位姿参数进行训练得到的。解决了现有技术中对数据数量和准确性要求较高的问题,使得输入视角稀疏和位姿不准确的图像数据即可实现较为准确的场景重建,降低了对输入数据在数量和准确性上的要求。

    基于有向包围盒的目标检测方法、装置及电子设备

    公开(公告)号:CN117994561A

    公开(公告)日:2024-05-07

    申请号:CN202311814591.1

    申请日:2023-12-26

    申请人: 清华大学

    摘要: 本发明提供一种基于有向包围盒的目标检测方法、装置及电子设备,其中的方法包括:将待检测图像输入至预先训练的目标检测网络,得到预测输出;对预测输出进行解码处理,得到待检测图像的目标检测结果;其中,目标检测网络通过根据样本图像中目标的原始有向包围盒的编码结果进行训练优化得到。该方法通过在目标检测网络的训练过程中将原始有向包围盒编码为对应的水平外包围盒参数、滑动比例参数以及交并比参数,此过程不会因为细微扰动而导致编码结果出现明显的变化,具有良好的稳定性,且解码时准确地还原出原本的有向包围盒,实现了有向包围盒的稳定、准确编码、解码,进一步提升了图像目标检测的准确度。

    一种面向室内场景三维语义分割的虚拟视图选择方法和装置

    公开(公告)号:CN116012387A

    公开(公告)日:2023-04-25

    申请号:CN202211679787.X

    申请日:2022-12-26

    申请人: 清华大学

    发明人: 穆太江 沈铭远

    摘要: 本发明提供一种面向室内场景三维语义分割的虚拟视图选择方法和装置。利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;用虚拟视图和原三维场景三维信息结合,得到三维室内场景的语义分割结果。本发明在优化三维室内场景语义分割结果的过程中,利用深度强化学习监督了场景不确定度的生成,同时引入了虚拟视图渲染方法,保证了原本分割结果较差的位置上有更多的信息,使得三维室内场景语义分割的准确性显著提高。

    一种基于三维高斯模型分割的图像渲染方法及装置

    公开(公告)号:CN118229859A

    公开(公告)日:2024-06-21

    申请号:CN202410287149.6

    申请日:2024-03-13

    申请人: 清华大学

    IPC分类号: G06T15/00 G06T19/20

    摘要: 本发明提供一种基于三维高斯模型分割的图像渲染方法及装置,涉及图像处理技术领域,获取三维高斯模型,其中,所述三维高斯模型包括多个高斯核,每个高斯核包括多个数值参数;确定所述三维高斯模型对应的分割平面;迭代计算每个高斯核是否与分割平面相交,在确定所述高斯核与分割平面相交的情形下,拆分所述高斯核,计算出拆分后的高斯核的各个数值参数,并用拆分后的高斯核替换原有的高斯核;在全部所述高斯核计算完毕的情形下,使用渲染器利用光栅化方法对更新后的三维高斯模型进行渲染编辑,得到渲染后的图像结果,能够优化三维高斯的分割结果,并提升三维高斯的编辑效果。

    基于动态三维模型的图像处理方法和装置

    公开(公告)号:CN117893669A

    公开(公告)日:2024-04-16

    申请号:CN202311730196.5

    申请日:2023-12-15

    申请人: 清华大学

    摘要: 本发明提供了一种基于动态三维模型的图像处理方法和装置,所述方法包括:获取待处理图片,并对待处理图片进行光线采样,得到采样点的三维坐标;将采样点的三维坐标输入预先训练的三维动态模型中,以得到三维动态模型输出的合成后的动态三维目标图像;三维动态模型包括用于限制学习区域的三维空区域掩码模块、用于计算每个像素点形变量的三维形变场模块、用于确定三维目标特征的三维特征场模块、利用插值解码器获取局部空间的特征插值解码器模块、用于基于三维目标特征重建出三维空间密度和三维空间点颜色的三维辐射场模块以及用于生成完整的动态三维目标图像的三维体积分模块。使得图像处理模型所占空间较小的同时,具有较好的渲染质量。

    三维场景图生成方法、装置和机器人

    公开(公告)号:CN110415328A

    公开(公告)日:2019-11-05

    申请号:CN201810388212.X

    申请日:2018-04-26

    IPC分类号: G06T17/00 G05D1/02 G01S17/02

    摘要: 本发明涉及一种三维场景图生成方法、装置和机器人,该方法包括:获取三维场景的深度图像帧序列和雷达数据帧序列;将所述深度图像帧序列和所述雷达数据帧序列同步,得到同步数据帧序列;确定所述同步数据帧序列中相邻同步数据帧之间的相对位姿数据;根据所述同步数据帧序列和所述相对位姿数据,创建多个三维子场景;将所述多个三维子场景融合为三维场景图。本申请方案根据同步数据帧中的图像颜色数据、图像深度数据和三维场景的雷达数据,提高了确定同步数据帧的位姿数据的准确性。

    一种基于自然语言的指令生成方法、装置以及相关设备

    公开(公告)号:CN110147544A

    公开(公告)日:2019-08-20

    申请号:CN201810508895.8

    申请日:2018-05-24

    IPC分类号: G06F17/27

    摘要: 本发明实施例公开了一种基于自然语言的指令生成方法、装置以及相关设备,其中方法包括:获取目标自然语言数据,并生成目标自然语言数据对应的语法结构特征;若指令规则库包括目标自然语言数据对应的语法结构特征,则在指令规则库中,查找与目标自然语言数据对应的语法结构特征具有映射关系的指令生成模板,作为目标指令生成模板;根据目标自然语言数据对应的语法结构特征、目标指令生成模板中的关键字符语法标识,在目标自然语言数据中选择关键字符信息;根据目标指令生成模板和关键字符信息,生成目标自然语言数据所指示的操作指令。采用本发明,无需训练成本即可保证所生成的操作指令的准确性。

    一种基于自然语言的指令生成方法、装置以及相关设备

    公开(公告)号:CN110147544B

    公开(公告)日:2024-06-21

    申请号:CN201810508895.8

    申请日:2018-05-24

    IPC分类号: G06F40/253 G06F40/211

    摘要: 本发明实施例公开了一种基于自然语言的指令生成方法、装置以及相关设备,其中方法包括:获取目标自然语言数据,并生成目标自然语言数据对应的语法结构特征;若指令规则库包括目标自然语言数据对应的语法结构特征,则在指令规则库中,查找与目标自然语言数据对应的语法结构特征具有映射关系的指令生成模板,作为目标指令生成模板;根据目标自然语言数据对应的语法结构特征、目标指令生成模板中的关键字符语法标识,在目标自然语言数据中选择关键字符信息;根据目标指令生成模板和关键字符信息,生成目标自然语言数据所指示的操作指令。采用本发明,无需训练成本即可保证所生成的操作指令的准确性。