-
公开(公告)号:CN117077081A
公开(公告)日:2023-11-17
申请号:CN202311070530.9
申请日:2023-08-23
Applicant: 科大讯飞股份有限公司
IPC: G06F18/25 , G06F18/2431 , G06V40/20 , G06V20/64 , G10L15/26 , G06F40/30 , G06V10/80 , G06V10/82 , G06T7/73 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种人体指向预测方法、装置、机器人及存储介质,本申请在进行人体指向预测时获取了多模态数据,其中包括对人体拍摄的目标图像、人体的深度点云图以及用户的语音指令。进一步对语音指令进行识别,得到识别文本。分别对目标图像、深度点云图和识别文本进行编码,将各个编码结果进行拼接,得到多模态特征,进而可以基于多模态特征确定人体指向点坐标。本申请方案不需要用户佩戴指定硬件传感器,成本较低。并且,采用了多模态数据来进行人体指向的预测,所参考的数据更加丰富,从而大大提高了人体指向预测结果的准确性。
-
公开(公告)号:CN119762867A
公开(公告)日:2025-04-04
申请号:CN202411880869.X
申请日:2024-12-19
Applicant: 科大讯飞股份有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06V10/80 , G06N3/0464 , G06V10/766
Abstract: 本申请公开了一种目标检测方法、装置、存储介质及设备,该方法包括:首先获取边缘设备所处场景的环境图像作为待检测的目标图像;然后将目标图像输入预先构建的目标检测模型,预测得到目标图像中各个目标物体的分类结果和位置信息以及像素级别的分类结果;接着对各个目标物体的分类结果和位置信息以及像素级别的分类结果进行融合处理,得到目标图像中目标物体的检测结果。由于本申请是先基于CLIP模型和特征编码网络,利用样本图像进行训练构建了目标检测模型,使得该模型能够学习到CLIP模型的图像表征能力,从而在边缘设备中利用该模型对目标图像中的目标物体进行检测时,可以有效提高检测结果的准确率和稳定性,进而提高了边缘设备的目标检测效果。
-
公开(公告)号:CN115480511B
公开(公告)日:2025-03-28
申请号:CN202211129098.1
申请日:2022-09-16
Applicant: 科大讯飞股份有限公司
IPC: G05B19/042 , G06V40/18
Abstract: 本申请公开了一种机器人交互方法、装置、存储介质及设备,该方法包括:首先获取目标用户的人脸图像,然后,利用该目标用户的人脸图像,确定目标用户的视线角度;接着根据目标用户的人脸图像和视线角度,确定目标机器人移动的终点位置信息;进而可以控制目标机器人移动到终点位置。可见,由于本申请是根据用户的视线移动,确定出机器人移动的终点位置,再控制机器人移动到该终点位置,从而能够实现更加精准、便捷的机器人交互,进而提高了交互效果和用户的交互体验。
-
公开(公告)号:CN113920560B
公开(公告)日:2024-10-25
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
公开(公告)号:CN115480511A
公开(公告)日:2022-12-16
申请号:CN202211129098.1
申请日:2022-09-16
Applicant: 科大讯飞股份有限公司
IPC: G05B19/042 , G06V40/18
Abstract: 本申请公开了一种机器人交互方法、装置、存储介质及设备,该方法包括:首先获取目标用户的人脸图像,然后,利用该目标用户的人脸图像,确定目标用户的视线角度;接着根据目标用户的人脸图像和视线角度,确定目标机器人移动的终点位置信息;进而可以控制目标机器人移动到终点位置。可见,由于本申请是根据用户的视线移动,确定出机器人移动的终点位置,再控制机器人移动到该终点位置,从而能够实现更加精准、便捷的机器人交互,进而提高了交互效果和用户的交互体验。
-
公开(公告)号:CN114187917A
公开(公告)日:2022-03-15
申请号:CN202111530309.8
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
IPC: G10L17/02 , G10L21/0216 , G10L21/0272 , G06V40/10
Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。
-
公开(公告)号:CN114360573B
公开(公告)日:2025-04-04
申请号:CN202111660100.3
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0272 , G10L21/0308 , G06F18/214 , G06F18/25 , G06N3/02
Abstract: 本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置,其中,说话者分离模型的训练方法包括:获取样本环境的样本数据,且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列;利用说话者分离模型,对样本数据进行处理得到各说话者的语音分离掩码,并对语音分离掩码和样本数据进行处理得到说话者分离结果,其中,说话者分离结果用于确定样本语音数据中的不同时间片段的说话者;利用语音分离掩码和说话者分离结果,调整说话者分离模型的网络参数。上述方案,能够提高说话者分离效果。
-
公开(公告)号:CN115862074B
公开(公告)日:2023-05-30
申请号:CN202310174852.1
申请日:2023-02-28
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/764 , G06V10/774 , G06F3/01
-
公开(公告)号:CN114360573A
公开(公告)日:2022-04-15
申请号:CN202111660100.3
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0272 , G10L21/0308 , G06K9/62 , G06N3/02
Abstract: 本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置,其中,说话者分离模型的训练方法包括:获取样本环境的样本数据,且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列;利用说话者分离模型,对样本数据进行处理得到各说话者的语音分离掩码,并对语音分离掩码和样本数据进行处理得到说话者分离结果,其中,说话者分离结果用于确定样本语音数据中的不同时间片段的说话者;利用语音分离掩码和说话者分离结果,调整说话者分离模型的网络参数。上述方案,能够提高说话者分离效果。
-
公开(公告)号:CN114333863A
公开(公告)日:2022-04-12
申请号:CN202111544776.6
申请日:2021-12-16
Applicant: 科大讯飞股份有限公司
IPC: G10L21/007 , G10L21/0208 , G10L21/0232 , G10L25/21 , G06V10/80
Abstract: 本申请公开了一种语音增强方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的;利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征;基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。通过上述方式,本申请能够提升语音增强的鲁棒性。
-
-
-
-
-
-
-
-
-