-
公开(公告)号:CN118015702A
公开(公告)日:2024-05-10
申请号:CN202410155781.5
申请日:2024-02-04
Applicant: 湖南大学
IPC: G06V40/20 , G06V20/64 , G06N3/0464 , G06N3/09 , G06F17/16
Abstract: 本发明公开了一种基于手部空间旋转不变性的域适应3D手部姿态估计方法,S1.对3D手部姿态估计模型预训练,初始化平均教师模型;S2.使用平均教师模型对目标域数据进行3D手部姿态预测;S3.获取学生网络的2D手部关节投影,计算2D伪标签损失;S4.获取模型手部空间3D手部关节投影结果;S5.获取手部空间3D伪标签,计算学生网络手部空间的3D伪标签损失;S6.模型自训练。本发明将预测的3D手部姿势转换到手部空间中,利用手部空间旋转不变性计算网络预测结果的伪标签和置信度,并基于的得到的伪标签和置信度来进行模型自训练,能够极大地提高3D手部姿态估计模型的通用性能。
-
公开(公告)号:CN119831886A
公开(公告)日:2025-04-15
申请号:CN202411903607.0
申请日:2024-12-23
Applicant: 湖南大学
IPC: G06T5/70 , G06T5/60 , G06V10/774 , G06V10/24 , G06V10/776 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/0985 , G06N3/0475
Abstract: 本发明公开了一种结合无噪图像和噪声图像的联合去噪训练方法,S1.图像去噪模型的训练:使用无噪图像和对应的噪声图像作为训练数据对图像去噪模型进行训练;S2.数据增强:对输入图像进行多种增强操作,增强操作包括旋转、翻转、裁剪、颜色变化中的至少一种;S3.在模型训练过程中,使用混合损失函数对网络进行优化;S4.在训练过程中实施动态优化策略:根据当前的去噪效果,动态调整模型的学习率,以进一步提高模型的收敛速度和去噪性能;S5.模型优化过程中采用自适应优化器对参数进行更新。基于本发明提出的方法,能够进一步提高了图像去噪模型的通用去噪性能。
-
公开(公告)号:CN116090528A
公开(公告)日:2023-05-09
申请号:CN202211670584.4
申请日:2022-12-25
Applicant: 湖南大学
IPC: G06N3/063
Abstract: 本发明公开了一种面向AI的跨域数据并行训练调度方法。所述方法包括如下步骤:(1)在跨域多数据中心之间建立广域网,使各数据中心的参数服务器与全局参数服务器之间可以在广域网下互相通信;在单个数据中心内部建立高速局域网,使数据中心内的工作节点可以在高速局域网下通信;(2)基于步骤(1)搭建的通信网络,各数据中心在本地数据集上使用随机梯度下降算法训练本地的神经网络模型,在达到最大迭代次数后,聚合各数据中心的神经网络模型参数,得到全局神经网络模型参数。
-
公开(公告)号:CN116403144A
公开(公告)日:2023-07-07
申请号:CN202310401054.8
申请日:2023-04-14
Applicant: 湖南大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统,包括步骤:S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频结合参考面部图像提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征中进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成脸部图像。本发明根据讲话内容、情感部分和身分特征对参考面部图像的脸部表情进行控制,更细粒度地合成人脸动画视频。
-
公开(公告)号:CN113392933A
公开(公告)日:2021-09-14
申请号:CN202110764822.7
申请日:2021-07-06
Applicant: 湖南大学
Abstract: 本发明公开了一种基于不确定性引导的自适应跨域目标检测方法,属于图像处理以及目标检测技术领域,包括以下步骤:S1.目标检测模型的预训练;S2.针对目标域数据的随机前向预测;S3.计算目标检测每个实例的平均类别概率、位置以及对应的不确定性;S4.图像伪标签的选择;S5.不确定性引导的模型自训练。本发明的基于不确定性引导的自适应目标检测方法,基于无监督领域自适应的框架,与现有技术不同的是本发明明确考虑了目标检测模型的不确定性,提出了一个不确定性感知伪标签选择算法,并基于得到的伪标签来进行模型自训练的新方法。基于本发明提出的方法,能够极大地提高目标检测模型的通用性能。
-
公开(公告)号:CN116090528B
公开(公告)日:2025-05-13
申请号:CN202211670584.4
申请日:2022-12-25
Applicant: 湖南大学
IPC: G06N3/063
Abstract: 本发明公开了一种面向AI的跨域数据并行训练调度方法。所述方法包括如下步骤:(1)在跨域多数据中心之间建立广域网,使各数据中心的参数服务器与全局参数服务器之间可以在广域网下互相通信;在单个数据中心内部建立高速局域网,使数据中心内的工作节点可以在高速局域网下通信;(2)基于步骤(1)搭建的通信网络,各数据中心在本地数据集上使用随机梯度下降算法训练本地的神经网络模型,在达到最大迭代次数后,聚合各数据中心的神经网络模型参数,得到全局神经网络模型参数。
-
公开(公告)号:CN117953204A
公开(公告)日:2024-04-30
申请号:CN202410138940.0
申请日:2024-01-31
Applicant: 湖南大学
Inventor: 蔡敏捷 , 贾那热斯·克孜尔别克
IPC: G06V10/25 , G06V10/82 , G06N3/0464 , G06N3/094
Abstract: 本发明公开了一种基于类别平衡的特征对齐的自适应跨域目标检测方法,本发明的基于类别平衡的特征对齐的自适应跨域目标检测方法,基于无监督领域自适应的框架,与现有技术不同的是本发明明确考虑了多类别目标检测任务的长尾效应,提出了一个类别级特征对齐,并通过记忆库中存储并更新的各类历史平均特征进行类别平衡的特征对齐。基于本发明提出的方法,能够极大地提高目标检测模型的通用性能,并提升稀缺类别的检测效果。该基于类别平衡的特征对齐的自适应跨域目标检测方法能够极大地提高目标检测模型的通用性能,并提升稀缺类别的检测效果。
-
公开(公告)号:CN111598914A
公开(公告)日:2020-08-28
申请号:CN202010395785.2
申请日:2020-05-12
Applicant: 湖南大学
Inventor: 蔡敏捷
Abstract: 本发明公开了一种基于不确定性引导的自适应图像分割方法,步骤1:图像分割模型的预训练;步骤2:针对目标域数据的随机前向预测;步骤3:计算图像分割平均概率图和不确定性图U;步骤4:计算图像分割掩码;步骤5:不确定性引导的模型自训练;步骤6:模型收敛判别。计算本次迭代的不确定性图的平均值 并计算与上次迭代的不确定性平均值的差值 若满足条件 则判定模型收敛并终止迭代;否则返回执行步骤2。该基于不确定性引导的自适应图像分割方法能自动从图像的所有像素中区分出感兴趣的物体区域。
-
公开(公告)号:CN119964596A
公开(公告)日:2025-05-09
申请号:CN202510077271.5
申请日:2025-01-17
Applicant: 湖南大学
Abstract: 本发明公开了一种基于视听融合聚类的说话人日志生成方法,旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现:首先,采用重叠感知的语音分段模型进行音频片段的分段,解决重叠语音问题;其次,利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵;然后,通过音视频联合聚类方法,根据音频特征和视觉信息优化聚类数目,并利用K均值聚类完成说话人聚类;实验结果表明,采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。
-
公开(公告)号:CN119762358A
公开(公告)日:2025-04-04
申请号:CN202411833524.9
申请日:2024-12-13
Applicant: 湖南大学
Abstract: 本发明公开了一种基于多尺度特征融合的稀疏新视角图像合成方法,属于计算机视觉与图像生成技术领域,具体包括以下步骤:S1.多尺度参考点生成与特征采样;S2.多感受野残差特征提取;S3.基于注意力网络的特征聚合与图像生成;S4.新视角合成模型的预训练;S5.预训练模型的微调。与现有技术不同,本发明通过结合多尺度特征和残差特征提取方法,提出了一种新的特征融合策略,同时引入基于注意力网络的特征聚合进行新视角图像的高效生成。此外,本发明还提出了基于预训练与迁移学习的自适应优化机制,从而能够加速稀疏场景下的训练过程,提高合成结果的质量与效率。基于本发明的方法,可显著提升稀疏场景下的新视角图像合成效果。
-
-
-
-
-
-
-
-
-