-
公开(公告)号:CN119904374A
公开(公告)日:2025-04-29
申请号:CN202510377749.6
申请日:2025-03-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,提供了一种图像增强方法、装置、电子设备和存储介质,其中方法包括:基于目标图像进行边缘检测,得到轮廓特征;基于轮廓特征以及标签特征,对目标图像进行图像增强,得到目标增强图像;标签特征基于目标图像带有的目标检测标签构建得到,目标增强图像与目标图像带有相同的目标检测标签,目标检测标签包括对应图像中各目标的检测框的坐标和类别,克服了传统方案中难以精确控制生成图像,以及生成的图像缺乏真实性和自然度的缺陷,不仅实现了高质量、多样化的图像增强,还能精确控制生成图像中物体的类别和位置,从而可以为目标检测任务提供大量优质的数据集,进而有助于提升目标检测模型的性能和增强泛化能力。
-
公开(公告)号:CN117077081A
公开(公告)日:2023-11-17
申请号:CN202311070530.9
申请日:2023-08-23
Applicant: 科大讯飞股份有限公司
IPC: G06F18/25 , G06F18/2431 , G06V40/20 , G06V20/64 , G10L15/26 , G06F40/30 , G06V10/80 , G06V10/82 , G06T7/73 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种人体指向预测方法、装置、机器人及存储介质,本申请在进行人体指向预测时获取了多模态数据,其中包括对人体拍摄的目标图像、人体的深度点云图以及用户的语音指令。进一步对语音指令进行识别,得到识别文本。分别对目标图像、深度点云图和识别文本进行编码,将各个编码结果进行拼接,得到多模态特征,进而可以基于多模态特征确定人体指向点坐标。本申请方案不需要用户佩戴指定硬件传感器,成本较低。并且,采用了多模态数据来进行人体指向的预测,所参考的数据更加丰富,从而大大提高了人体指向预测结果的准确性。
-
公开(公告)号:CN116051736A
公开(公告)日:2023-05-02
申请号:CN202211703540.7
申请日:2022-12-23
Applicant: 科大讯飞股份有限公司
IPC: G06T17/00
Abstract: 本申请公开了一种三维重建方法、装置、边缘设备和存储介质,该方法包括:获取可见光相机和深度相机对目标对象同步拍摄到的可见光图像和深度图像;基于可见光图像进行稀疏重建,得到稀疏点云数据;其中,稀疏点云数据包含可见光图像中特征点反投影后的第一三维点;基于深度图像在稀疏点云数据中筛选第一三维点,得到第一目标点云数据;至少基于第一目标点云数据进行稠密重建,得到目标对象的三维模型。通过上述方式,本申请能够提高三维重建的效率和精度。
-
公开(公告)号:CN114359910A
公开(公告)日:2022-04-15
申请号:CN202111666321.1
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06T7/73 , G06T7/11
Abstract: 本申请提供一种文本点读方法、计算机设备及存储介质,其中,该方法包括:获取文本点读实际起始点对应的第一区域图像;获取所述第一区域图像对应的第一文字特征信息和/或第一图像特征信息;获取文本点读终止点对应的第二区域图像;获取所述第二区域图像对应的第二文字特征信息和/或第二图像特征信息;将所述第一文字特征信息与所述第二文字特征信息进行比对,和/或将所述第一图像特征信息与所述第二图像特征信息进行比对,确定所述实际起始点映射于所述第二区域图像中的映射起始点;基于所述映射起始点和所述终止点,确定点读选取的文本内容,以对所述文本内容进行点读处理。由此可以提高提高点读的效率和准确性。
-
公开(公告)号:CN119845246A
公开(公告)日:2025-04-18
申请号:CN202411753645.2
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司
IPC: G01C21/00
Abstract: 本申请公开了一种机器人建图方法及相关装置、机器人和存储介质,其中,机器人建图方法包括:获取机器人在当前点位处的拍摄图像和雷达数据;其中,雷达数据包括若干测点数据;对齐拍摄图像与雷达数据,并识别拍摄图像中各个对象的图像区域;基于雷达数据中分别与各个对象的图像区域相对齐的测点数据,确定各个对象分别在栅格地图中占据的目标栅格;响应于各个对象中存在遮挡物,至少基于当前点位和遮挡物在栅格地图中占据的目标栅格,确定被遮挡物遮挡的待探索区域,并基于待探索区域,确定机器人待行至的探索点位。上述方案,能够提升机器人建图精度。
-
公开(公告)号:CN118155014A
公开(公告)日:2024-06-07
申请号:CN202410294266.5
申请日:2024-03-14
Applicant: 科大讯飞股份有限公司
IPC: G06V10/774 , G06V10/778 , G06V10/40 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种视觉感知、模型训练方法、装置、设备和存储介质,其中视觉感知方法包括:获取待感知图像;基于视觉感知模型,对待感知图像进行视觉感知;视觉感知模型基于学生模型确定,学生模型基于第一样本图像和伪视觉标签训练得到;伪视觉标签基于教师模型对第一样本图像进行视觉感知得到;教师模型基于预先标记的第二样本图像训练得到。本发明提供的方法、装置、设备和存储介质,大大缓解了视觉感知模型训练对于标记样本的依赖性,降低了视觉感知模型的训练成本,保证了视觉感知模型的鲁棒性和泛化能力,基于由此得到的视觉感知模型针对待感知图像进行视觉感知,能够保证视觉感知的可靠性和稳定性,有效提升视觉感知性能。
-
公开(公告)号:CN118097327A
公开(公告)日:2024-05-28
申请号:CN202410140959.9
申请日:2024-01-31
Applicant: 科大讯飞股份有限公司
IPC: G06V10/774 , G06V10/26 , G06V10/40 , G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本申请提出一种模型训练方法、视频全景分割方法、装置、设备、介质及产品,该方法包括:基于样本视频的第一视频帧对应的全景分割标签,预测确定所述样本视频的第二视频帧对应的全景分割标签;所述第一视频帧与所述第二视频帧包含相同的视频场景;至少根据全景分割模型对所述第一视频帧和所述第二视频帧的全景分割结果,以及所述第一视频帧和所述第二视频帧各自对应的全景分割标签,对所述全景分割模型进行参数优化。采用上述方案能够以较少的视频标注数据实现对全景分割模型的充分训练,从而提高基于全景分割模型的视频全景分割效果。
-
公开(公告)号:CN118038406A
公开(公告)日:2024-05-14
申请号:CN202410102755.6
申请日:2024-01-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种障碍物状态预测方法、机器人地图构建方法、装置、相关设备及计算机程序产品,本申请获取对障碍物拍摄的二维图像及点云数据,分别提取并融合图像模态特征和点云模态特征得到融合特征,进而可以基于融合特征端到端的预测障碍物的状态信息,采用本申请方案可以有效融合二维图像信息和点云数据,从而可以更加准确的预测障碍物的状态信息,相比于现有单纯基于深度数据预测障碍物状态的方案,通过融合二维图像信息可以改善单纯深度数据所存在的数据缺失、异常等问题,此外,本申请由于不需要对图像进行mask分割,避免了过分割、欠分割所带来的误差,能够有效提升障碍物状态预测的准确度。
-
公开(公告)号:CN117173483A
公开(公告)日:2023-12-05
申请号:CN202311196008.5
申请日:2023-09-15
Applicant: 科大讯飞股份有限公司
IPC: G06V10/764 , G06V10/74 , G06V10/80 , G06V20/56
Abstract: 本申请公开了一种物体识别方法、装置、设备及存储介质,本申请获取待识别图片对应的文本模态的多条候选类别,多条候选类别包括待识别图片中物体的真实类别;利用多模态大模型分别提取每条候选类别的文本特征,以及,提取待识别图片的视觉特征;计算待识别图片的视觉特征与每条候选类别的文本特征间的相似度,取最高相似度对应的候选类别作为待识别图片中物体的目标类别。本申请借助多模态大模型强大的通用知识的表示能力,可以更加准确地提取特征,进而基于提取的特征进行物体识别,提升识别准确度,避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题,以及面对特殊视角拍摄的图片的识别准确率不高的问题。
-
公开(公告)号:CN113627537B
公开(公告)日:2023-12-01
申请号:CN202110925442.7
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Inventor: 张圆
IPC: G06V10/82 , G06V10/764 , G06V10/74 , G06V10/44 , G06N3/0475 , G06N3/045 , G06N3/0495 , G06N3/094 , G06N3/096 , G06N3/082 , G06N3/084 , G06N3/0464 , G06N3/044
Abstract: 图像的识别效率。本申请公开了一种图像识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标图像,然后再将其输入至预先构建的图像识别模型,识别得到目标图像的特征向量;其中,图像识别模型是根据神经元的算力进行自适应剪枝,并利用对抗训练和知识蒸馏的方式训练得到的神经网络模型;接着,可以根据该特征向量,对目标图像进行识别,得到目标图像的识别结果。可见,由于本申请预先构建的图像识别模型是利用神经元的算力进行自适应剪枝,从而提高了剪枝效率,并且通过对抗训练和知识蒸馏的训练方式还能够使得该模型有效继承当前主流神经网
-
-
-
-
-
-
-
-
-