-
公开(公告)号:CN110222719A
公开(公告)日:2019-09-10
申请号:CN201910388158.3
申请日:2019-05-10
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于多帧音视频融合网络的人物识别方法及系统,其特征在于,包括:视觉特征融合步骤,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;声纹特征融合步骤,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;音视频特征融合步骤,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别。
-
公开(公告)号:CN110222719B
公开(公告)日:2021-09-24
申请号:CN201910388158.3
申请日:2019-05-10
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于多帧音视频融合网络的人物识别方法及系统,其特征在于,包括:视觉特征融合步骤,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;声纹特征融合步骤,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;音视频特征融合步骤,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别。
-