-
公开(公告)号:CN115830633B
公开(公告)日:2023-07-25
申请号:CN202211484307.4
申请日:2022-11-24
Applicant: 之江实验室
IPC: G06V40/10 , G06V10/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 一种基于多任务学习残差神经网络的行人重识别方法,包括:从公开数据集中获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;构建多任务学习残差神经网络;构建“分类‑检索‑二元分类”联合损失函数;基于数据集训练好多任务学习残差神经网络和“分类‑检索‑二元分类”联合损失函数;基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。本发明还包括一种基于多任务学习残差神经网络的行人重识别系统。本发明解决了由于非结构环境下,人物遮挡、衣服相似的行人重识别的问题。
-
公开(公告)号:CN114387612A
公开(公告)日:2022-04-22
申请号:CN202111407271.5
申请日:2021-11-24
Applicant: 之江实验室
IPC: G06V40/10 , G06V10/56 , G06V10/774 , G06V10/764 , G06V10/80 , G06K9/62
Abstract: 本发明公开了一种基于双模态特征融合网络的人体重识别方法及装置,该方法包括:获取待识别人体的彩色图像及对应的其他模态图像;将所述彩色图像及对应的其他模态图像输入训练好的双模态特征融合网络,提取所述待识别人体的特征;将所述待识别人体的特征与人体图像库的特征进行对比,得到所述待识别人体的识别结果。本发明针对人体重识别问题,将待识别人体的彩色图像及对应的其他模态图像输入训练好的双模态特征融合网络,进行特征提取,提取到的特征信息量相对于根据单一模态图像提取的特征更加丰富,从而使得所进行的人体重识别的准确度相较于根据单一模态图像进行的人体重识别也更高。
-
公开(公告)号:CN113989333A
公开(公告)日:2022-01-28
申请号:CN202111457064.0
申请日:2021-11-29
Applicant: 之江实验室
Abstract: 本发明涉及行人跟踪领域,尤其涉及一种基于人脸和头肩信息的行人跟踪的方法,包括:步骤一,获取机器人上摄像头的图像,对图像中人进行头肩检测,提取头肩检测框,并且提取头肩特征;步骤二,利用步骤一中的头肩检测框,裁剪出头肩图像,进行人脸检测,得到人脸检测框,再提取人脸特征;步骤三,利用步骤一和步骤二中获取的当前帧的行人的信息,将当前帧行人与历史中行人进行关联;步骤四,利用步骤三中的关联结果,更新历史中行人的信息。本发明相对于其它单一特征的在线行人跟踪方法,本发明能够降低丢失目标风险,提高了丢失找回能力,降低身份跳变率。
-
公开(公告)号:CN114356078A
公开(公告)日:2022-04-15
申请号:CN202111539274.4
申请日:2021-12-15
Applicant: 之江实验室
IPC: G06F3/01
Abstract: 本发明涉及人工智能机器人行为交互领域,具体涉及一种基于注视目标的人物意图检测方法、装置及电子设备,该方法包括:利用机器人上的深度摄像头获取到彩色图像和深度图,通过注视目标估计方法在彩色图像中估计出人物的注视目标点,通过目标检测方法在彩色图像中检测出通用目标的包围框,将人物的注视目标点与通用目标相关联,得到彩色图像中的注视目标物体;利用深度图和机器人位姿坐标计算出机器人当前位置下的可观测到的点云,彩色图像中的注视目标物体映射到注视目标点云上;在语义地图上查询注视目标点云的位置上的语义信息,作为人物意图。本发明进一步提升机器人在人机交互的能力,更好地为人类进行服务。
-
公开(公告)号:CN114170506A
公开(公告)日:2022-03-11
申请号:CN202111451521.5
申请日:2021-12-01
Applicant: 之江实验室
IPC: G06V20/10 , G06V20/52 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06T7/73
Abstract: 本发明公开了一种面向机器人的基于场景图的视觉场景理解系统及方法,系统包括:彩色图片获取与调用模块、场景图关系识别模块、人群关系预测模块;方法包括:通过彩色图片获取与调用模块获取应用场景中的实时的图像;对象分类模块根据对象的特征计算出对象所属的类别,场景图关系识别模块将所有对象与关系进行关联组合,生成场景图;通过关系分类模块计算出两两对象之间的合理关系类别;人群划分模块依据整个场景中的人物以及人物之间的关系类别,进行合理的人群划分;根据人群划分的结果与人物之间的关系类别,VIP预测模块对人群中的每个人进行相关的关系融合,并根据融合结果判断每个人在人群中的重要程度,最终得出该人群中的VIP。
-
公开(公告)号:CN116012445A
公开(公告)日:2023-04-25
申请号:CN202211572616.7
申请日:2022-12-08
Applicant: 之江实验室
IPC: G06T7/73 , G06T7/246 , G06T7/80 , H04L67/568
Abstract: 一种基于深度相机的导览机器人感知行人三维空间信息的方法,包括:1)机器人端获取深度相机的RGB图片及Depth图片,进行预处理后传输到云端服务器;2)根据云端部署的多目标跟踪方法及二维人体关键点检测网络获取每一个跟踪到的行人的二维关键点坐标,结合Depth图片与RGB图片的映射关系获取行人的三维关键点坐标;3)根据深度相机与激光雷达联合标定的坐标转换矩阵获取机器人坐标系下的行人三维关键点坐标并输出行人三维空间信息;4)机器人根据获取到的行人三维空间信息进行本体控制,完成自主唤醒等智能导览任务;采用基于视觉感知方法提升导览机器人的自然交互体验。本发明能用于展厅等公共场景下导览机器人对行人的三维空间信息的智能感知。
-
公开(公告)号:CN115810209A
公开(公告)日:2023-03-17
申请号:CN202211491204.0
申请日:2022-11-25
Applicant: 之江实验室
Abstract: 一种基于多模态特征融合的说话人识别方法,包括:获取包含图像序列等多模态序列信息;获取人脸图像序列信息;获取人脸图像序列对应的其他模态信息序列;建立多模态特征融合网络,将所述人脸多模态序列信息作为训练集,训练所述多模态特征融合网络;将待识别人脸多模态序列信息输入所述多模态特征融合网络,得到当前人说话状态。本发明还包括一种基于多模态特征融合的说话人识别装置。本发明能够融合不同模态的特征,丰富所提取特征的信息量,提升说话人识别准确度。
-
公开(公告)号:CN115376187A
公开(公告)日:2022-11-22
申请号:CN202210966740.5
申请日:2022-08-12
Applicant: 之江实验室
Abstract: 本发明属于计算机技术领域,公开了一种多人机交互场景下说话对象检测装置及方法,包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块;本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息;实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并在连续的图像帧中识别跟踪同一个人物;通过人脸序列数据信息与音频帧数据信息识别人群中的说话者;通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。
-
公开(公告)号:CN114819110A
公开(公告)日:2022-07-29
申请号:CN202210717252.0
申请日:2022-06-23
Applicant: 之江实验室
IPC: G06N3/04 , G06V20/40 , G06V40/16 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种实时识别视频中说话人的方法及装置,该方法包括:获取同一时刻开始且连续的图像序列和音频序列;根据所述图像序列中最新一帧的图像,检测并跟踪人脸,更新已有的人脸序列信息库;将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中,检测说话状态,更新说话状态数据库;根据所述说话状态数据库,获取所有人的当前状态,从而识别视频中的可能的说话人。
-
公开(公告)号:CN114356078B
公开(公告)日:2024-03-19
申请号:CN202111539274.4
申请日:2021-12-15
Applicant: 之江实验室
IPC: G06F3/01
Abstract: 本发明涉及人工智能机器人行为交互领域,具体涉及一种基于注视目标的人物意图检测方法、装置及电子设备,该方法包括:利用机器人上的深度摄像头获取到彩色图像和深度图,通过注视目标估计方法在彩色图像中估计出人物的注视目标点,通过目标检测方法在彩色图像中检测出通用目标的包围框,将人物的注视目标点与通用目标相关联,得到彩色图像中的注视目标物体;利用深度图和机器人位姿坐标计算出机器人当前位置下的可观测到的点云,彩色图像中的注视目标物体映射到注视目标点云上;在语义地图上查询注视目标点云的位置上的语义信息,作为人物意图。本发明进一步提升机器人在人机交互的能力,更好地为人类进行服务。
-
-
-
-
-
-
-
-
-