-
公开(公告)号:CN116070474A
公开(公告)日:2023-05-05
申请号:CN202310363122.6
申请日:2023-04-07
Applicant: 之江实验室 , 浙江大学 , 无锡江南计算技术研究所
IPC: G06F30/20 , G06F17/15 , G06F111/04 , G06F111/08
Abstract: 本发明公开了一种面向AI浮点融合运算单元的验证激励产生方法,该方法包括:针对新型AI浮点融合运算单元进行分析,获取输入操作数数量、输入操作数数据格式、输入操作数数据类型并构建相应参数模型;结合参数模型构造输入操作数之间的约束表达式、输入操作数和中间结果的约束表达式、输入操作数和输出结果的约束表达式;分别对三种约束表达式进行求解生成一定数量的验证激励;将验证激励分别送入参考模型和待验证新型AI浮点融合运算单元中比较计算结果和记录覆盖率。通过该方法可以提高验证人员对新型AI浮点融合运算单元的验证效率和验证覆盖率。
-
公开(公告)号:CN116012445A
公开(公告)日:2023-04-25
申请号:CN202211572616.7
申请日:2022-12-08
Applicant: 之江实验室
IPC: G06T7/73 , G06T7/246 , G06T7/80 , H04L67/568
Abstract: 一种基于深度相机的导览机器人感知行人三维空间信息的方法,包括:1)机器人端获取深度相机的RGB图片及Depth图片,进行预处理后传输到云端服务器;2)根据云端部署的多目标跟踪方法及二维人体关键点检测网络获取每一个跟踪到的行人的二维关键点坐标,结合Depth图片与RGB图片的映射关系获取行人的三维关键点坐标;3)根据深度相机与激光雷达联合标定的坐标转换矩阵获取机器人坐标系下的行人三维关键点坐标并输出行人三维空间信息;4)机器人根据获取到的行人三维空间信息进行本体控制,完成自主唤醒等智能导览任务;采用基于视觉感知方法提升导览机器人的自然交互体验。本发明能用于展厅等公共场景下导览机器人对行人的三维空间信息的智能感知。
-
公开(公告)号:CN115810209A
公开(公告)日:2023-03-17
申请号:CN202211491204.0
申请日:2022-11-25
Applicant: 之江实验室
Abstract: 一种基于多模态特征融合的说话人识别方法,包括:获取包含图像序列等多模态序列信息;获取人脸图像序列信息;获取人脸图像序列对应的其他模态信息序列;建立多模态特征融合网络,将所述人脸多模态序列信息作为训练集,训练所述多模态特征融合网络;将待识别人脸多模态序列信息输入所述多模态特征融合网络,得到当前人说话状态。本发明还包括一种基于多模态特征融合的说话人识别装置。本发明能够融合不同模态的特征,丰富所提取特征的信息量,提升说话人识别准确度。
-
公开(公告)号:CN115376187A
公开(公告)日:2022-11-22
申请号:CN202210966740.5
申请日:2022-08-12
Applicant: 之江实验室
Abstract: 本发明属于计算机技术领域,公开了一种多人机交互场景下说话对象检测装置及方法,包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块;本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息;实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并在连续的图像帧中识别跟踪同一个人物;通过人脸序列数据信息与音频帧数据信息识别人群中的说话者;通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。
-
公开(公告)号:CN114819110A
公开(公告)日:2022-07-29
申请号:CN202210717252.0
申请日:2022-06-23
Applicant: 之江实验室
IPC: G06N3/04 , G06V20/40 , G06V40/16 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种实时识别视频中说话人的方法及装置,该方法包括:获取同一时刻开始且连续的图像序列和音频序列;根据所述图像序列中最新一帧的图像,检测并跟踪人脸,更新已有的人脸序列信息库;将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中,检测说话状态,更新说话状态数据库;根据所述说话状态数据库,获取所有人的当前状态,从而识别视频中的可能的说话人。
-
公开(公告)号:CN117226854B
公开(公告)日:2024-02-02
申请号:CN202311505956.2
申请日:2023-11-13
Applicant: 之江实验室
Abstract: 本说明书公开了一种夹取任务的执行方法、装置、存储介质及电子设备。所述方法包括:获取包含有目标物的图像数据,并确定目标物对应的轮廓信息以及目标物所处环境的环境信息;根据轮廓信息,确定目标物中包含的每个部件所对应的位姿信息、形体信息以及语义信息;根据环境信息、位姿信息、形体信息、语义信息以及每种夹取姿态对应的预设夹取姿态信息,确定通过不同夹取姿态夹取目标物中每种部件时的夹取损失值;根据夹取损失值,在各夹取姿态中确定出目标夹取姿态,以及在目标物的各部件中确定出目标部件,并按照目标夹取姿态执行针对目标部件的夹取任务。
-
公开(公告)号:CN116070474B
公开(公告)日:2023-07-07
申请号:CN202310363122.6
申请日:2023-04-07
Applicant: 之江实验室 , 浙江大学 , 无锡江南计算技术研究所
IPC: G06F30/20 , G06F17/15 , G06F111/04 , G06F111/08
Abstract: 本发明公开了一种面向AI浮点融合运算单元的验证激励产生方法,该方法包括:针对新型AI浮点融合运算单元进行分析,获取输入操作数数量、输入操作数数据格式、输入操作数数据类型并构建相应参数模型;结合参数模型构造输入操作数之间的约束表达式、输入操作数和中间结果的约束表达式、输入操作数和输出结果的约束表达式;分别对三种约束表达式进行求解生成一定数量的验证激励;将验证激励分别送入参考模型和待验证新型AI浮点融合运算单元中比较计算结果和记录覆盖率。通过该方法可以提高验证人员对新型AI浮点融合运算单元的验证效率和验证覆盖率。
-
公开(公告)号:CN115880685A
公开(公告)日:2023-03-31
申请号:CN202211577601.X
申请日:2022-12-09
Applicant: 之江实验室
IPC: G06V20/64 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 一种基于votenet模型的三维目标检测方法,包括:构建votenet模型;针对感兴趣目标构建用于训练votenet模型的点云数据集;构建用于训练votenet模型的基于双层嵌套三维矩形框空间划分的种子点位移损失函数;基于votenet模型原方法构建用于训练votenet模型的其他损失函数,包括前景背景分类损失函数、中心偏移量损失函数、尺寸偏移量损失函数以及朝向角偏移量损失函数;基于构建的点云数据集和损失函数训练votenet模型;使用RGB‑D相机获取待检测场景的点云数据;基于待检测场景的点云数据,经过votenet模型,输出感兴趣目标的三维目标检测结果。本发明可以在不增加模型推理延时的前提下,有效降低三维目标检测结果的虚警率。
-
公开(公告)号:CN115861387A
公开(公告)日:2023-03-28
申请号:CN202211599044.1
申请日:2022-12-14
Applicant: 之江实验室
Abstract: 本申请涉及一种机器人目标跟踪方法、装置、机器人及存储介质,该方法包括:对第一图像和第二图像进行目标检测,得到至少一个第一对象和至少一个第二对象;第一图像基于第一相机采集,第二图像基于第二相机采集,第二相机的视野范围大于第一相机的视野范围,且与第一相机的视野范围存在交叠;提取各第一对象、第二对象在第一图像、第二图像中的图像特征和位置特征;基于图像特征和位置特征确定第一对象和第二对象中处于交叠视野范围内的目标对象;将目标对象所对应的图像特征融合后得到第三图像特征,基于第三图像特征跟踪目标对象,扩展了目标对象的跟踪视野,解决了相关技术中存在的机器人难以实现对被跟踪目标整体运动过程跟踪的问题。
-
公开(公告)号:CN115830633A
公开(公告)日:2023-03-21
申请号:CN202211484307.4
申请日:2022-11-24
Applicant: 之江实验室
IPC: G06V40/10 , G06V10/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 一种基于多任务学习残差神经网络的行人重识别方法,包括:从公开数据集中获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;构建多任务学习残差神经网络;构建“分类‑检索‑二元分类”联合损失函数;基于数据集训练好多任务学习残差神经网络和“分类‑检索‑二元分类”联合损失函数;基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。本发明还包括一种基于多任务学习残差神经网络的行人重识别系统。本发明解决了由于非结构环境下,人物遮挡、衣服相似的行人重识别的问题。
-
-
-
-
-
-
-
-
-