-
公开(公告)号:CN119845246A
公开(公告)日:2025-04-18
申请号:CN202411753645.2
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司
IPC: G01C21/00
Abstract: 本申请公开了一种机器人建图方法及相关装置、机器人和存储介质,其中,机器人建图方法包括:获取机器人在当前点位处的拍摄图像和雷达数据;其中,雷达数据包括若干测点数据;对齐拍摄图像与雷达数据,并识别拍摄图像中各个对象的图像区域;基于雷达数据中分别与各个对象的图像区域相对齐的测点数据,确定各个对象分别在栅格地图中占据的目标栅格;响应于各个对象中存在遮挡物,至少基于当前点位和遮挡物在栅格地图中占据的目标栅格,确定被遮挡物遮挡的待探索区域,并基于待探索区域,确定机器人待行至的探索点位。上述方案,能够提升机器人建图精度。
-
公开(公告)号:CN114187917B
公开(公告)日:2025-01-03
申请号:CN202111530309.8
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
IPC: G10L17/02 , G10L21/0216 , G10L21/0272 , G06V40/10
Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。
-
公开(公告)号:CN118155014A
公开(公告)日:2024-06-07
申请号:CN202410294266.5
申请日:2024-03-14
Applicant: 科大讯飞股份有限公司
IPC: G06V10/774 , G06V10/778 , G06V10/40 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种视觉感知、模型训练方法、装置、设备和存储介质,其中视觉感知方法包括:获取待感知图像;基于视觉感知模型,对待感知图像进行视觉感知;视觉感知模型基于学生模型确定,学生模型基于第一样本图像和伪视觉标签训练得到;伪视觉标签基于教师模型对第一样本图像进行视觉感知得到;教师模型基于预先标记的第二样本图像训练得到。本发明提供的方法、装置、设备和存储介质,大大缓解了视觉感知模型训练对于标记样本的依赖性,降低了视觉感知模型的训练成本,保证了视觉感知模型的鲁棒性和泛化能力,基于由此得到的视觉感知模型针对待感知图像进行视觉感知,能够保证视觉感知的可靠性和稳定性,有效提升视觉感知性能。
-
公开(公告)号:CN118038406A
公开(公告)日:2024-05-14
申请号:CN202410102755.6
申请日:2024-01-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种障碍物状态预测方法、机器人地图构建方法、装置、相关设备及计算机程序产品,本申请获取对障碍物拍摄的二维图像及点云数据,分别提取并融合图像模态特征和点云模态特征得到融合特征,进而可以基于融合特征端到端的预测障碍物的状态信息,采用本申请方案可以有效融合二维图像信息和点云数据,从而可以更加准确的预测障碍物的状态信息,相比于现有单纯基于深度数据预测障碍物状态的方案,通过融合二维图像信息可以改善单纯深度数据所存在的数据缺失、异常等问题,此外,本申请由于不需要对图像进行mask分割,避免了过分割、欠分割所带来的误差,能够有效提升障碍物状态预测的准确度。
-
公开(公告)号:CN115862074A
公开(公告)日:2023-03-28
申请号:CN202310174852.1
申请日:2023-02-28
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/764 , G06V10/774 , G06F3/01
Abstract: 本申请公开了一种人体指向确定、屏幕控制方法、装置及相关设备,本申请获取对人体采集的图像数据,该图像数据至少包括深度点云图像,基于图像数据,提取人体姿态特征,基于提取的人体姿态特征确定每一人体关键点的空间坐标及对应的指向角度,人体关键点不小于2个,基于每一人体关键点的空间坐标及对应的指向角度,计算每一人体关键点对应的人体指向点信息,进而结合各个人体关键点对应的人体指向点信息,来得到更加精准的最终人体指向点信息,由于综合考虑了多个不同的人体关键点所对应的人体指向点信息得到最终的人体指向点信息,可以避免单个人体关键点所存在的误差,大大提高最终的人体指向点预测的准确性和稳定性。
-
公开(公告)号:CN113920560A
公开(公告)日:2022-01-11
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
-
-
-
-