-
公开(公告)号:CN114663619B
公开(公告)日:2024-06-28
申请号:CN202210173959.X
申请日:2022-02-24
Applicant: 清华大学
IPC: G06T17/20 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于自注意力机制的三维点云物体预测方法和装置,其中,该方法包括:实时采集雷达数据;其中,雷达数据包括待预测物体点云;将视频雷达数据输入预训练的点云识别模型,进行待预测物体点云的点云识别补全;其中,点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练;基于点云识别补全,输出补全后的待预测物体点云的预测分类结果。本发明能够实现现实场景中三维物体的精准预测和分类,为自动驾驶,无人机等领域带来了新的研究思路。
-
公开(公告)号:CN115294296A
公开(公告)日:2022-11-04
申请号:CN202210737105.X
申请日:2022-06-27
Applicant: 清华大学
Abstract: 本发明提出一种基于图像预训练模型提示学习的三维物体识别方法,包括,获取三维点云数据;根据预设角度将三维点云数据投影为二维图像,根据三维点云数据各点与二维图像各像素之间的投影对应关系生成二维特征图;获取二维特征图中每个像素点的颜色值,根据颜色值生成二维特征图对应的彩色投影图像;将彩色投影图像输入至预训练的二维图像识别模型中,得到识别结果。本发明提出了基于点到像素的提示学习方法,从三维物体渲染得到彩色图像,从而以较低可学习参数量实现图像预训练知识到三维领域的迁移和应用,在经典的三维物体识别和分割任务上取得了更好的性能。
-
公开(公告)号:CN111784121B
公开(公告)日:2022-08-09
申请号:CN202010535420.5
申请日:2020-06-12
Applicant: 清华大学
Abstract: 本发明公开了一种基于不确定性分数分布学习的动作质量评价方法,包括:以分数标签为均值,生成高斯分布作为监督信号;将动作视频送入到3D神经网络中来预测分数标签;通过优化预测分数标签和监督信号之间的KL散度来优化网络;将测试视频输入优化后的预测视频分数模型中,选取概率值最大的分数作为最终预测分数。该方法可以更好的描述动作质量分数的概率,解决解决动作质量评价分数标签中的歧义性问题。
-
公开(公告)号:CN112153370A
公开(公告)日:2020-12-29
申请号:CN202010857886.7
申请日:2020-08-24
Applicant: 清华大学
IPC: H04N17/00
Abstract: 本发明公开了一种基于群敏感对比回归的视频动作质量评价方法及系统,其中,该方法包括:根据当前视频选择对应的示例视频和示例视频得分;利用深度学习模型分别对当前视频和示例视频进行时空特征提取,并构造合并特征;构建群敏感回归树网络,对合并特征进行回归,得到最终差异分数,并将最终差异分数与示例视频得分结合,得到当前视频分数。该方法通过建模目标动作与示例动作的差距,从而得到最后的目标动作得分,提高了模型的动作质量评价准确度。
-
公开(公告)号:CN112614071A
公开(公告)日:2021-04-06
申请号:CN202011593009.X
申请日:2020-12-29
Applicant: 清华大学
IPC: G06T5/00
Abstract: 本申请提出一种基于自注意力的多样点云补全方法和装置,涉及计算机三维点云补全和深度学习技术领域,其中,方法包括:获取点云数据,对点云数据进行处理,获取输入点代理序列;对点代理序列进行编码,获取点编码向量,对点编码向量进行解码,获取预测点代理;将预测点代理输入多层感知器,获取预测点中心,并在预测点中心的基础上恢复完整点云数据。由此,将点云处理成为点代理序列,并采用编码器‑解码器来构建点云不同点之间的长程关系实现点云重建。
-
公开(公告)号:CN119131222A
公开(公告)日:2024-12-13
申请号:CN202411258579.1
申请日:2024-09-09
Applicant: 清华大学
Abstract: 本公开提供一种基于局部三维高斯渲染的高效场景生成方法及装置,其中,方法包括:获取第一视角的深度图像、文本条件和轨迹列表;基于空间跳跃步骤,生成第二视角的平面图像;基于时间插值步骤,生成第一视角和第二视角之间的至少一个插值帧图像,以及第一视角的平面图像对应的深度信息和第二视角的平面图像对应的深度信息;确定第二视角的深度图像;以此类推,直至确定第N视角和第N+1视角之间的至少一个插值帧图像,以及第N+1视角的深度图像;生成三维场景视频。由此,基于空间跳跃步骤和时间插值步骤,根据前一视角的深度图像和当前视角的深度图像对应的场景描述文本,能够快速生成插值帧图像以及当前视角的深度图像,提高三维场景生成的效率。
-
公开(公告)号:CN114663619A
公开(公告)日:2022-06-24
申请号:CN202210173959.X
申请日:2022-02-24
Applicant: 清华大学
Abstract: 本发明公开了一种基于自注意力机制的三维点云物体预测方法和装置,其中,该方法包括:实时采集雷达数据;其中,雷达数据包括待预测物体点云;将视频雷达数据输入预训练的点云识别模型,进行待预测物体点云的点云识别补全;其中,点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练;基于点云识别补全,输出补全后的待预测物体点云的预测分类结果。本发明能够实现现实场景中三维物体的精准预测和分类,为自动驾驶,无人机等领域带来了新的研究思路。
-
公开(公告)号:CN119006822A
公开(公告)日:2024-11-22
申请号:CN202411146370.6
申请日:2024-08-20
Applicant: 清华大学
IPC: G06V10/26 , G06V20/70 , G06V10/42 , G06V10/77 , G06V10/80 , G06V10/82 , G06F40/126 , G06N3/0464 , G06N3/045 , G06N3/0475
Abstract: 本申请提出一种基于跨模态掩码交互的三维开放词汇语义分割方法,该方法包括:通过点云分割模型对点云数据进行特征提取得到点云三维特征;通过隐式三维描述器对点云分割模型的点云编码器输出的特征进行编码得到隐式条件嵌入;将隐式条件嵌入作为隐式描述和输入图像输入扩散模型的去噪Unet,通过Unet从已建立的文本‑二维嵌入空间中提取特征,得到图像二维特征;并通过掩码生成器将图像二维特征转换为二维分割掩码特征;融合点云三维特征和二维分割掩码特征,得到融合特征;基于融合特征输出文本描述对应的分割掩码。提升三维开放词汇语义分割的性能,解决相关技术中三维开放词汇语义分割方法中几何细节被忽略和鲁棒性不强的问题。
-
公开(公告)号:CN112614071B
公开(公告)日:2022-08-12
申请号:CN202011593009.X
申请日:2020-12-29
Applicant: 清华大学
IPC: G06T5/00
Abstract: 本申请提出一种基于自注意力的多样点云补全方法和装置,涉及计算机三维点云补全和深度学习技术领域,其中,方法包括:获取点云数据,对点云数据进行处理,获取输入点代理序列;对点代理序列进行编码,获取点编码向量,对点编码向量进行解码,获取预测点代理;将预测点代理输入多层感知器,获取预测点中心,并在预测点中心的基础上恢复完整点云数据。由此,将点云处理成为点代理序列,并采用编码器‑解码器来构建点云不同点之间的长程关系实现点云重建。
-
公开(公告)号:CN112153370B
公开(公告)日:2021-12-24
申请号:CN202010857886.7
申请日:2020-08-24
Applicant: 清华大学
IPC: H04N17/00
Abstract: 本发明公开了一种基于群敏感对比回归的视频动作质量评价方法及系统,其中,该方法包括:根据当前视频选择对应的示例视频和示例视频得分;利用深度学习模型分别对当前视频和示例视频进行时空特征提取,并构造合并特征;构建群敏感回归树网络,对合并特征进行回归,得到最终差异分数,并将最终差异分数与示例视频得分结合,得到当前视频分数。该方法通过建模目标动作与示例动作的差距,从而得到最后的目标动作得分,提高了模型的动作质量评价准确度。
-
-
-
-
-
-
-
-
-