多模态说话人身份识别方法、装置和设备

    公开(公告)号:CN113920560B

    公开(公告)日:2024-10-25

    申请号:CN202111092312.6

    申请日:2021-09-17

    Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

    话者分离方法、装置、电子设备和存储介质

    公开(公告)号:CN114187917A

    公开(公告)日:2022-03-15

    申请号:CN202111530309.8

    申请日:2021-12-14

    Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。

    图像检测方法以及电子设备、存储装置

    公开(公告)号:CN113449770B

    公开(公告)日:2024-02-13

    申请号:CN202110542047.0

    申请日:2021-05-18

    Inventor: 程虎 殷保才

    Abstract: 本申请公开了一种图像检测方法以及电子设备、存储装置,其中,图像检测方法包括:提取第一模态图像的第一特征图,并提取第二模态图像的第二特征图;其中,第一模态图像和第二模态图像均为对目标对象采集得到的;提取第一特征图中各个第一像素位置的第一位置特征,并提取第二特征图中各个第二像素位置的第二位置特征;将各个第一像素位置的第一位置特征和各个第二像素位置的第二位置特征进行融合,得到模态融合特征;利用模态融合特征进行检测,得

    图像检测方法以及电子设备、存储装置

    公开(公告)号:CN113449770A

    公开(公告)日:2021-09-28

    申请号:CN202110542047.0

    申请日:2021-05-18

    Inventor: 程虎 殷保才

    Abstract: 本申请公开了一种图像检测方法以及电子设备、存储装置,其中,图像检测方法包括:提取第一模态图像的第一特征图,并提取第二模态图像的第二特征图;其中,第一模态图像和第二模态图像均为对目标对象采集得到的;提取第一特征图中各个第一像素位置的第一位置特征,并提取第二特征图中各个第二像素位置的第二位置特征;将各个第一像素位置的第一位置特征和各个第二像素位置的第二位置特征进行融合,得到模态融合特征;利用模态融合特征进行检测,得到目标对象的预测类别。上述方案,能够提高多模态图像检测的效率和精度。

    数据匹配方法、装置、设备、存储介质及产品

    公开(公告)号:CN118410345A

    公开(公告)日:2024-07-30

    申请号:CN202410436018.X

    申请日:2024-04-11

    Abstract: 本申请提供一种数据匹配方法、装置、设备、存储介质及产品,该方法包括:分别获取第一模态数据的编码和第二模态数据的编码,通过对所述第一模态数据和所述第二模态数据进行联合编码,得到所述第一模态数据的共享编码和所述第二模态数据的共享编码;对所述第一模态数据的编码与所述第一模态数据的共享编码进行融合,得到所述第一模态数据的融合编码,对所述第二模态数据的编码与所述第二模态数据的共享编码进行融合,得到所述第二模态数据的融合编码;基于所述第一模态数据的融合编码和所述第二模态数据的融合编码,确定所述第一模态数据和所述第二模态数据的匹配结果。本申请可以更准确地度量不同模态数据之间的相似性,得到更准确的匹配结果。

    显示方法、装置、电子设备和存储介质

    公开(公告)号:CN117765080A

    公开(公告)日:2024-03-26

    申请号:CN202311812674.7

    申请日:2023-12-25

    Abstract: 本发明提供一种显示方法、装置、电子设备和存储介质,其中方法包括:获取相机当前视角下的图像;确定图像的感兴趣区域,并对感兴趣区域进行特征提取,得到当前视角下的特征向量;基于预设位置特征库,获取当前视角下的特征向量对应的目标变换矩阵,预设位置特征库基于各视角下的标定图像对应的特征向量和变换矩阵构建;基于目标变换矩阵,调整图像对应的视线数据,并应用调整后的视线数据进行抬头显示。本发明提供的方法、装置、电子设备和存储介质,可以在驾驶员位置固定但相机视角可手动调整的条件下,实现对抬头显示位置进行自适应矫正,提供稳定可靠的智能座舱抬头显示功能。

    图像处理方法、装置、设备及存储介质

    公开(公告)号:CN116883700A

    公开(公告)日:2023-10-13

    申请号:CN202310798362.9

    申请日:2023-06-29

    Abstract: 本申请提供了图像处理方法、装置、设备及存储介质,具体实现方案为:获取第一图像中的各个图形元素的属性信息,所述各个图形元素构成所述第一图像中的第一图形对象,根据所述第一图像中的各个图形元素的属性信息,确定所述第一图形对象的图结构信息,以及,获取第二图像中的第二图形对象的图结构信息;至少根据所述第一图形对象的图结构信息,以及所述第二图形对象的图结构信息,从所述第二图形对象中确定出与所述第一图形对象匹配的图形区域。根据本申请的技术方案,能够有效提升拼图图像匹配的准确性。

Patent Agency Ranking