-
公开(公告)号:CN113920560B
公开(公告)日:2024-10-25
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
公开(公告)号:CN114187917A
公开(公告)日:2022-03-15
申请号:CN202111530309.8
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
IPC: G10L17/02 , G10L21/0216 , G10L21/0272 , G06V40/10
Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。
-
公开(公告)号:CN113449770B
公开(公告)日:2024-02-13
申请号:CN202110542047.0
申请日:2021-05-18
Applicant: 科大讯飞股份有限公司
IPC: G06V10/764 , G06V10/80
Abstract: 本申请公开了一种图像检测方法以及电子设备、存储装置,其中,图像检测方法包括:提取第一模态图像的第一特征图,并提取第二模态图像的第二特征图;其中,第一模态图像和第二模态图像均为对目标对象采集得到的;提取第一特征图中各个第一像素位置的第一位置特征,并提取第二特征图中各个第二像素位置的第二位置特征;将各个第一像素位置的第一位置特征和各个第二像素位置的第二位置特征进行融合,得到模态融合特征;利用模态融合特征进行检测,得
-
公开(公告)号:CN113449770A
公开(公告)日:2021-09-28
申请号:CN202110542047.0
申请日:2021-05-18
Applicant: 科大讯飞股份有限公司
IPC: G06K9/62
Abstract: 本申请公开了一种图像检测方法以及电子设备、存储装置,其中,图像检测方法包括:提取第一模态图像的第一特征图,并提取第二模态图像的第二特征图;其中,第一模态图像和第二模态图像均为对目标对象采集得到的;提取第一特征图中各个第一像素位置的第一位置特征,并提取第二特征图中各个第二像素位置的第二位置特征;将各个第一像素位置的第一位置特征和各个第二像素位置的第二位置特征进行融合,得到模态融合特征;利用模态融合特征进行检测,得到目标对象的预测类别。上述方案,能够提高多模态图像检测的效率和精度。
-
公开(公告)号:CN119645225A
公开(公告)日:2025-03-18
申请号:CN202411636152.0
申请日:2024-11-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种手势控制方法、装置、设备、存储介质及程序产品,该手势控制方法包括:获取包含手部的多个目标图像,并基于多个目标图像生成空中手势轨迹;将空中手势轨迹和模板轨迹进行匹配,得到和空中手势轨迹匹配成功的目标模板轨迹;其中,模板轨迹是基于多个预设点预先绘制的轨迹;获取目标模板轨迹对应的目标指令,并控制目标设备执行目标指令对应的操作。本申请能够提升非接触式手势控制的灵敏性和精确性。
-
公开(公告)号:CN118410345A
公开(公告)日:2024-07-30
申请号:CN202410436018.X
申请日:2024-04-11
Applicant: 科大讯飞股份有限公司
IPC: G06F18/22 , G06F18/25 , G06N3/0455
Abstract: 本申请提供一种数据匹配方法、装置、设备、存储介质及产品,该方法包括:分别获取第一模态数据的编码和第二模态数据的编码,通过对所述第一模态数据和所述第二模态数据进行联合编码,得到所述第一模态数据的共享编码和所述第二模态数据的共享编码;对所述第一模态数据的编码与所述第一模态数据的共享编码进行融合,得到所述第一模态数据的融合编码,对所述第二模态数据的编码与所述第二模态数据的共享编码进行融合,得到所述第二模态数据的融合编码;基于所述第一模态数据的融合编码和所述第二模态数据的融合编码,确定所述第一模态数据和所述第二模态数据的匹配结果。本申请可以更准确地度量不同模态数据之间的相似性,得到更准确的匹配结果。
-
公开(公告)号:CN117765080A
公开(公告)日:2024-03-26
申请号:CN202311812674.7
申请日:2023-12-25
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种显示方法、装置、电子设备和存储介质,其中方法包括:获取相机当前视角下的图像;确定图像的感兴趣区域,并对感兴趣区域进行特征提取,得到当前视角下的特征向量;基于预设位置特征库,获取当前视角下的特征向量对应的目标变换矩阵,预设位置特征库基于各视角下的标定图像对应的特征向量和变换矩阵构建;基于目标变换矩阵,调整图像对应的视线数据,并应用调整后的视线数据进行抬头显示。本发明提供的方法、装置、电子设备和存储介质,可以在驾驶员位置固定但相机视角可手动调整的条件下,实现对抬头显示位置进行自适应矫正,提供稳定可靠的智能座舱抬头显示功能。
-
公开(公告)号:CN116883700A
公开(公告)日:2023-10-13
申请号:CN202310798362.9
申请日:2023-06-29
Applicant: 科大讯飞股份有限公司
IPC: G06V10/75 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了图像处理方法、装置、设备及存储介质,具体实现方案为:获取第一图像中的各个图形元素的属性信息,所述各个图形元素构成所述第一图像中的第一图形对象,根据所述第一图像中的各个图形元素的属性信息,确定所述第一图形对象的图结构信息,以及,获取第二图像中的第二图形对象的图结构信息;至少根据所述第一图形对象的图结构信息,以及所述第二图形对象的图结构信息,从所述第二图形对象中确定出与所述第一图形对象匹配的图形区域。根据本申请的技术方案,能够有效提升拼图图像匹配的准确性。
-
-
-
-
-
-
-