-
公开(公告)号:CN115909418A
公开(公告)日:2023-04-04
申请号:CN202310180797.7
申请日:2023-03-01
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/80 , G06V10/82 , G06V20/70 , G06V10/26 , G06V10/764 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F3/01
Abstract: 本申请公开了一种人体指向确定、屏幕控制方法、装置及相关设备,本申请同时获取对人体拍摄的目标图像以及深度点云数据,提取目标图像的人体掩码特征,以及提取深度点云数据的深度点云特征,基于人体掩码特征对深度点云特征进行处理,得到深度补全特征,基于深度补全特征确定人体指向点信息。本申请在传统的基于人体深度点云数据进行人体指向估计的基础上,额外考虑了对人体拍摄的目标图像,利用该目标图像的人体掩码特征对深度点云特征进行处理,得到的深度补全特征相比于单纯从深度点云数据中提取的深度点云特征,其包含的信息更加丰富,进而可以更加准确的估计人体指向点信息,提升了人体指向点信息的准确性。
-
公开(公告)号:CN115861338A
公开(公告)日:2023-03-28
申请号:CN202211699750.3
申请日:2022-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06T7/10
Abstract: 本发明公开了一种实例分割方法、装置、电子设备和存储介质,其中,实例分割方法包括:对待分割图像进行目标检测和实例分割,得到目标检测框和第一实例掩码;根据目标检测框,分别从待分割图像对应的多尺度特征图、待分割图像和第一实例掩码获取特征信息,并将获取的特征信息进行融合,得到多尺度深浅特征;基于多尺度深浅特征,生成第二实例掩码;输出目标检测框和第二实例掩码。本发明由于融合了多尺度的低分辨率深层特征和高分辨低层特征,可以更好地预测出实例的掩码细节,输出更为精细的实例掩码,提高了图像实例分割的精度。
-
公开(公告)号:CN115830350A
公开(公告)日:2023-03-21
申请号:CN202211710848.4
申请日:2022-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种图像语义匹配方法、装置、设备及存储介质,其中,图像语义匹配方法包括:获取待匹配图像和参考图像;以图像变换矩阵为优化对象,以使基于图像变换矩阵对待匹配图像进行变换得到的变换后图像与参考图像的语义匹配为目标,对图像变换矩阵进行优化;将基于最后一次优化后的图像变换矩阵对待匹配图像进行变换得到的图像,确定为与参考图像的语义匹配的图像。本发明提供的图像语义匹配方法以图像变换矩阵为优化对象,通过不断优化得到待匹配图像与参考图像间的图像变换矩阵,优化过程即是对待匹配图像进行变换的过程,优化完成时即完成图像语义匹配,本发明提供的图像语义匹配方法具有较好的匹配效果和较强的泛化能力。
-
公开(公告)号:CN115578487A
公开(公告)日:2023-01-06
申请号:CN202211405675.5
申请日:2022-11-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了虚拟换装方法、装置、设备及存储介质,具体实现方案为:对获取到的服装区域图像进行姿态矫正处理,得到所述服装区域图像中服装的标准形状信息;其中,所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息;从所述服装区域图像中提取得到服装样式信息;利用所述服装样式信息和所述标准形状信息,对目标对象进行换装。根据本申请的技术方案,能够有效提升目标对象的换装效果。
-
公开(公告)号:CN115424264A
公开(公告)日:2022-12-02
申请号:CN202210945482.2
申请日:2022-08-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种全景分割方法及相关装置、电子设备、存储介质,其中,全景分割方法包括:提取待分割图像的第一特征图;基于第一特征图,分别预测得到第一特征图中第一像素点的类别信息和位置信息,并基于第一特征图进行特征生成,得到第二特征图;基于第一特征图中第一像素点的类别信息和位置信息,提取各图像对象的位置信息;基于第二特征图和各图像对象的位置信息进行全景分割,得到待分割图像的全景分割图。上述方案,能够在边缘设备实时部署全景分割。
-
公开(公告)号:CN115063858A
公开(公告)日:2022-09-16
申请号:CN202210716287.2
申请日:2022-06-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频人脸表情识别方法、装置、设备及存储介质,本申请获取人脸视频集合,该集合无需进行表情类型的标注,进一步可以利用携带有标注的训练数据训练初始表情分类模型,利用该模型对集合中每一视频段进行表情类型的预测,得到预测的伪标签,该伪标签可能会存在少量的误差,但是预测结果大部分还是正确的,本申请中以人脸视频集合中各视频段作为训练样本,参考伪标签基于对比自监督学习策略,对视频人脸表情识别模型进行预训练,采用这种训练方式无需提供有标注的训练数据,也即不需要大规模有标注人脸表情数据,同时通过对比学习策略,能够很好的学习到不同表情类型的表征特征,基于此训练的视频人脸表情识别模型的精度会更高。
-
公开(公告)号:CN114419148A
公开(公告)日:2022-04-29
申请号:CN202111491453.5
申请日:2021-12-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种触碰检测方法、装置、设备和计算机可读存储介质,该方法包括:获取对触碰检测平面拍摄到的第一图像和第二图像;分别对第一图像和第二图像进行目标检测,得到目标对象的目标部位分别在第一图像中的第一图像位置和在第二图像中的第二图像位置;对第一图像位置和第二图像位置进行联合分析,得到触碰检测结果;其中,触碰检测结果包括目标部位是否触碰到触碰检测平面。上述方案,能够提高触碰检测结果的精度,且成本较低。
-
公开(公告)号:CN114415830A
公开(公告)日:2022-04-29
申请号:CN202111663557.X
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种隔空输入方法及设备、计算机可读存储介质。该隔空输入方法包括:获取手势信息,手势信息至少包括动笔关键点的位置信息;获取动笔关键点的位置关系;响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。通过上述方式,本发明能够降低输入识别难度,还能够增强输入的连贯性,以有利于改善用户的使用体验。
-
公开(公告)号:CN114360573A
公开(公告)日:2022-04-15
申请号:CN202111660100.3
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0272 , G10L21/0308 , G06K9/62 , G06N3/02
Abstract: 本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置,其中,说话者分离模型的训练方法包括:获取样本环境的样本数据,且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列;利用说话者分离模型,对样本数据进行处理得到各说话者的语音分离掩码,并对语音分离掩码和样本数据进行处理得到说话者分离结果,其中,说话者分离结果用于确定样本语音数据中的不同时间片段的说话者;利用语音分离掩码和说话者分离结果,调整说话者分离模型的网络参数。上述方案,能够提高说话者分离效果。
-
公开(公告)号:CN114333863A
公开(公告)日:2022-04-12
申请号:CN202111544776.6
申请日:2021-12-16
Applicant: 科大讯飞股份有限公司
IPC: G10L21/007 , G10L21/0208 , G10L21/0232 , G10L25/21 , G06V10/80
Abstract: 本申请公开了一种语音增强方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的;利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征;基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。通过上述方式,本申请能够提升语音增强的鲁棒性。
-
-
-
-
-
-
-
-
-