-
公开(公告)号:CN117576786A
公开(公告)日:2024-02-20
申请号:CN202410059351.3
申请日:2024-01-16
Applicant: 北京大学深圳研究生院
Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。
-
公开(公告)号:CN116681655A
公开(公告)日:2023-09-01
申请号:CN202310553305.4
申请日:2023-05-16
Applicant: 北京大学深圳研究生院
IPC: G06T7/00 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N5/04
Abstract: 一种基于残差代价卷的立体匹配方法及网络,根据提取得到的特征金字塔构建多个不同尺度的第一残差代价卷,每个第一残差代价卷的维度不同,采用残差异构聚合方式对这些残差代价卷进行信息融合,能够高效聚合异构代价表征,实现多态代价表征的信息交互,从而解决多尺度代价卷网络的信息冗余问题,使得双目立体匹配网络在精度和推理速度上取得更好的平衡,根据多个不同尺度的第一视差图进行误差修正,可以有效地提升立体匹配的质量。
-
公开(公告)号:CN117576786B
公开(公告)日:2024-04-16
申请号:CN202410059351.3
申请日:2024-01-16
Applicant: 北京大学深圳研究生院
Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。
-
-