Patent search ap:("中国科学院计算技术研究所") AND inv:"王永杰" Page 1

1.

发明公开
一种基于多帧音视频融合网络的人物识别方法及系统有权

公开(公告)号：CN110222719A

公开(公告)日：2019-09-10

申请号：CN201910388158.3

申请日：2019-05-10

Applicant: 中国科学院计算技术研究所

Inventor： 高科 , 王永杰

IPC: G06K9/62 , G06K9/00 , G10L17/02

Abstract: 本发明提出一种基于多帧音视频融合网络的人物识别方法及系统，其特征在于，包括：视觉特征融合步骤，解码待人物识别的视频，得到该视频的连续K帧，提取该连续K帧中每一帧的人脸特征，对所有该人脸特征进行加权融合得到多帧视觉特征，K为正整数；声纹特征融合步骤，提取该连续K帧中每一帧的声纹特征，使用时间递归神经网络融合所有该声纹特征，得到多帧声纹特征；音视频特征融合步骤，使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合，并用分类损失约束融合过程，得到多帧音视频融合特征，根据该多帧音视频融合特征进行人物识别。

2.

发明授权
一种基于多帧音视频融合网络的人物识别方法及系统有权

公开(公告)号：CN110222719B

公开(公告)日：2021-09-24

申请号：CN201910388158.3

申请日：2019-05-10

Applicant: 中国科学院计算技术研究所

Inventor： 高科 , 王永杰

IPC: G06K9/62 , G06K9/00 , G10L17/02

Abstract: 本发明提出一种基于多帧音视频融合网络的人物识别方法及系统，其特征在于，包括：视觉特征融合步骤，解码待人物识别的视频，得到该视频的连续K帧，提取该连续K帧中每一帧的人脸特征，对所有该人脸特征进行加权融合得到多帧视觉特征，K为正整数；声纹特征融合步骤，提取该连续K帧中每一帧的声纹特征，使用时间递归神经网络融合所有该声纹特征，得到多帧声纹特征；音视频特征融合步骤，使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合，并用分类损失约束融合过程，得到多帧音视频融合特征，根据该多帧音视频融合特征进行人物识别。

Patent Agency Ranking