-
公开(公告)号:CN117576786B
公开(公告)日:2024-04-16
申请号:CN202410059351.3
申请日:2024-01-16
Applicant: 北京大学深圳研究生院
Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。
-
公开(公告)号:CN120088867A
公开(公告)日:2025-06-03
申请号:CN202510580538.2
申请日:2025-05-07
Applicant: 北京大学深圳研究生院
Abstract: 本申请涉及人体动作生成技术领域。本申请公开了一种人体动作序列的生成方法、装置、设备及存储介质,其能够提高人体动作的生成质量以及提高模型的泛化能力。所述人体动作序列的生成方法包括获取文本信息和场景图像;将所述文本信息和所述场景图像输入动作规划模型进行任务分解和动作生成处理,输出人体动作序列。
-
公开(公告)号:CN117576787B
公开(公告)日:2024-04-16
申请号:CN202410060569.0
申请日:2024-01-16
Applicant: 北京大学深圳研究生院
Abstract: 本申请公开了一种基于主动跟踪和自适应手势识别的交接方法、装置及设备,方法包括通过机器人安装的深度相机采集视频图像;基于视频图像通过媒体管道获取相机坐标系下的第一手部地标;将第一手部地标转换至预设的世界坐标系以得到第二手部地标;将第二手部地标输入经过训练的手势识别模型,通过手势识别模型确定所述视频图像对应的用户手势;通过机器人将交互对象交互给用户。本申请实施例通过使用包括媒体管道提示手部地标和通过手势识别模型识别用户手势的两阶段方法,在面对不同物体和不同照明条件时均能准确识别到用户手势,提高了人机交互的准确性,确保了与人类抓握一致的平稳和自然的交接过程。
-
-