一种目标检测方法、装置、存储介质及设备

    公开(公告)号:CN119762867A

    公开(公告)日:2025-04-04

    申请号:CN202411880869.X

    申请日:2024-12-19

    Abstract: 本申请公开了一种目标检测方法、装置、存储介质及设备,该方法包括:首先获取边缘设备所处场景的环境图像作为待检测的目标图像;然后将目标图像输入预先构建的目标检测模型,预测得到目标图像中各个目标物体的分类结果和位置信息以及像素级别的分类结果;接着对各个目标物体的分类结果和位置信息以及像素级别的分类结果进行融合处理,得到目标图像中目标物体的检测结果。由于本申请是先基于CLIP模型和特征编码网络,利用样本图像进行训练构建了目标检测模型,使得该模型能够学习到CLIP模型的图像表征能力,从而在边缘设备中利用该模型对目标图像中的目标物体进行检测时,可以有效提高检测结果的准确率和稳定性,进而提高了边缘设备的目标检测效果。

    多模态说话人身份识别方法、装置和设备

    公开(公告)号:CN113920560B

    公开(公告)日:2024-10-25

    申请号:CN202111092312.6

    申请日:2021-09-17

    Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

    话者分离方法、装置、电子设备和存储介质

    公开(公告)号:CN114187917A

    公开(公告)日:2022-03-15

    申请号:CN202111530309.8

    申请日:2021-12-14

    Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。

    说话者分离模型的训练方法和说话者分离方法及相关装置

    公开(公告)号:CN114360573B

    公开(公告)日:2025-04-04

    申请号:CN202111660100.3

    申请日:2021-12-31

    Abstract: 本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置,其中,说话者分离模型的训练方法包括:获取样本环境的样本数据,且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列;利用说话者分离模型,对样本数据进行处理得到各说话者的语音分离掩码,并对语音分离掩码和样本数据进行处理得到说话者分离结果,其中,说话者分离结果用于确定样本语音数据中的不同时间片段的说话者;利用语音分离掩码和说话者分离结果,调整说话者分离模型的网络参数。上述方案,能够提高说话者分离效果。

    说话者分离模型的训练方法和说话者分离方法及相关装置

    公开(公告)号:CN114360573A

    公开(公告)日:2022-04-15

    申请号:CN202111660100.3

    申请日:2021-12-31

    Abstract: 本申请公开了一种说话者分离模型的训练方法和说话者分离方法及相关装置,其中,说话者分离模型的训练方法包括:获取样本环境的样本数据,且样本数据包括同一时间段采集的样本语音数据和样本环境中若干说话者的样本图像序列;利用说话者分离模型,对样本数据进行处理得到各说话者的语音分离掩码,并对语音分离掩码和样本数据进行处理得到说话者分离结果,其中,说话者分离结果用于确定样本语音数据中的不同时间片段的说话者;利用语音分离掩码和说话者分离结果,调整说话者分离模型的网络参数。上述方案,能够提高说话者分离效果。

Patent Agency Ranking