一种基于混合低秩适配器的异构数据训练方法和系统

    公开(公告)号:CN118734903A

    公开(公告)日:2024-10-01

    申请号:CN202410722391.1

    申请日:2024-06-05

    IPC分类号: G06N3/0464 G06N3/08

    摘要: 本发明涉及一种基于混合低秩适配器的异构数据训练方法和系统,方法包括以下步骤:获取异构数据集,并输入预先构建的神经网络模型中进行模型训练,以通过训练好的神经网络模型进行数据预测;所述神经网络模型包括配置有混合低秩适配器的卷积层,对配置有混合低秩适配器的卷积层,通过设置两个低秩因子描述低秩适配器的贡献权重,并配置一个共享的初始权重;并分别针对已知目标与未知目标的场景,提出基于梯度的混合低秩适配器与基于路由的混合低秩适配器。与现有技术相比,本发明算法所需计算开销更少,有着更好的鲁棒性与泛用性,且适用于大规模多任务学习场景。

    高质量的人脸修复方法、装置、设备、存储介质

    公开(公告)号:CN118710559A

    公开(公告)日:2024-09-27

    申请号:CN202411204107.8

    申请日:2024-08-30

    IPC分类号: G06T5/77 G06T5/60 G06T5/70

    摘要: 本申请提供一种高质量的人脸修复方法、装置、设备、存储介质,该方法,包括:获取待修复素材;其中,待修复素材为低质量的待修复图像,或者,待修复素材为低质量的待修复图像和高质量的参考图像,且待修复图像和参考图像对应相同的身份信息;通过预先训练的修复模型,对待修复素材进行修复,得到修复后图像;其中,若待修复素材为低质量的待修复图像,则修复模型基于真实的样本图像和对应的低质量的样本图像训练得到;若待修复素材为低质量的待修复图像和高质量的参考图像,则修复模型基于真实的样本图像、对应的低质量的样本图像和对应的样本身份信息训练得到,本申请提供的方法增强了图像质量。

    基于原型类中心的弱监督开放词汇语义分割方法及系统

    公开(公告)号:CN117372695A

    公开(公告)日:2024-01-09

    申请号:CN202311319317.7

    申请日:2023-10-11

    摘要: 本发明提供了一种基于原型类中心的弱监督开放词汇语义分割方法及系统,包括:步骤S1:利用文本特征提取器提取文本目标为文本向量特征;步骤S2:利用视觉特征提取器提取目标图片的视觉特征,并将视觉特征基于可学习类别中心进行聚类操作得到全局类别中心;步骤S3:利用原型模型提取图像‑文本对的原型类别中心用以监督全局类别中心;步骤S4:将全局类别中心和文本向量特征进行对比学习,利用梯度下降法对文本特征提取器和视觉特征提取器进行训练;步骤S5:利用训练好的文本特征提取器和视觉特征提取器对测试图像和测试文本进行推理得到测试图像分割结果。本发明提出基于原型类中心的学习策略,大幅提升了弱监督开放词汇语义分割的准确性。

    说话人日志提取方法及系统
    7.
    发明公开

    公开(公告)号:CN117316166A

    公开(公告)日:2023-12-29

    申请号:CN202311389985.7

    申请日:2023-10-24

    摘要: 本发明提供一种说话人日志提取方法及系统,包括:对音频与视频分别进行预处理,并分别提取模态对齐后的音频数据及各说话人视频数据的初始语义表征;利用视频的语义信息得到说话人活跃片段的粗略划分,并由此提取说话人的声学特征;根据语义信息及说话人特征对各模态进行帧级别的不确定性建模,对音频和视频的质量进行评估;利用置信度分数指导音频和视频模态语义表征的融合,得到融合后的各说话人音视频语义信息流;解码器根据融合后的各说话人音视频语义信息流对各说话人各个时刻的活跃状态分别进行估计。本发明利用置信度分数来指导不同模态信息的动态融合,相较于其他方法对带噪片段有着更好的鲁棒性,同时对多通道音频也具有良好的兼容性。

    冗余自适应的多模态鲁棒融合学习方法及系统

    公开(公告)号:CN116992396A

    公开(公告)日:2023-11-03

    申请号:CN202310981766.1

    申请日:2023-08-04

    摘要: 本发明提供了一种冗余自适应的多模态鲁棒融合学习方法及系统,包括:使用预训练好的单模态特征提取网络提取单模态初始特征;将各单模态初始特征编码为概率分布;对各单模态概率分布进行正则化约束;为每个单模态均值分配元素级特征权重;利用各权重分配后的单模态均值产生多模态特征;对各单模态分布采样,产生相应的单模态特征向量;利用各单模态、多模态特征向量得到相应特征的概率预测分布。本发明考虑多模态数据间冗余性对模型鲁棒性的影响,促使模型在捕获全部单模态信息的同时,动态地识别其中的无损信息用于融合,实现更鲁棒且准确的多模态预测。

    约束时域关系的视频动作定位方法和系统

    公开(公告)号:CN111259775B

    公开(公告)日:2023-04-28

    申请号:CN202010032794.5

    申请日:2020-01-13

    摘要: 本发明提供一种约束时域关系的视频动作定位方法和系统,包括:视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序。本发明对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。