-
公开(公告)号:CN116682154A
公开(公告)日:2023-09-01
申请号:CN202310399938.4
申请日:2023-04-13
Applicant: 北京科技大学
IPC: G06V40/16 , G06V10/143 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明实施例涉及一种异质人脸识别模型的训练方法、识别方法、装置及设备,涉及图像处理领域,通过将样本集中各类目标对象的至少两种模态人脸图像输入到预训练的识别模型中,输出至少两种模态人脸图像对应的特征向量;根据特征向量确定第一原型向量并初始化分类器参数,获得初始异质人脸识别模型;迭代执行如下步骤,直至获得最终识别模型:将预设数量的跨模态困难样本对输入到上一迭代获得的特征提取器中,输出每个跨模态困难样本对的两个特征向量;根据任一特征向量和第一原型向量确定第二原型向量;根据另一特征向量和第二原型向量构建模型损失函数;调整上一迭代获得模型参数;即在模型训练时,在原型中添加了跨模态信息,提高模型精度。
-
公开(公告)号:CN116543749A
公开(公告)日:2023-08-04
申请号:CN202310814315.9
申请日:2023-07-05
Applicant: 北京科技大学
Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。
-
公开(公告)号:CN115759238A
公开(公告)日:2023-03-07
申请号:CN202310005904.2
申请日:2023-01-04
Applicant: 北京科技大学
IPC: G06N3/082 , G06N3/04 , G06V10/764 , G06V10/82
Abstract: 本公开涉及一种量化模型的生成方法及装置、电子设备及存储介质,所述方法包括:对于预先训练的目标检测模型进行量化;根据所述目标检测模型每一网络层的量化前与量化后输出值的差值,确定每一网络层对目标检测模型的贡献度;对于贡献度小于预设阈值的所有网络层进行分组,确定每一组的网络层;对每一组的网络层和贡献度大于或等于预设阈值的每一网络层,进行并行量化,得到与所述目标检测模型对应的量化模型,将每一组的多个贡献度小于预设阈值的网络层与单个贡献度大于或等于预设阈值的网络层进行并行量化,能够通过对贡献度较大的网络层进行单独量化,确保量化过程精度,并通过并行量化的方式提高量化过程的速度。
-
-