基于深度学习的实时视频人脸关键点检测方法

    公开(公告)号:CN112801043A

    公开(公告)日:2021-05-14

    申请号:CN202110262999.7

    申请日:2021-03-11

    摘要: 本发明为基于深度学习的实时视频人脸关键点检测方法,该方法采用卷积神经网络进行单帧的关键点检测,在其中应用深度可分离卷积提升模型检测速率、边界热图作为原有网络的一个附加的子任务提升原有网络全局人脸结构的约束,提升了原有网络的检测准确率、用于热图的解决数据不均衡损失函数提升在有限样本下模型对大姿态样本的泛化能力、光流损失函数加强帧间的平滑性。在检测过程中对于出现极端大角度而导致置信度低于关键点置信度阈值的帧,利用3DMM进行拟合得到密集关键点坐标,对取得的密集关键点根据最小化帧间的投影误差进行68点取样,保持与之前帧的一致性。具有实时性、能利用全局帧间信息、对人脸大姿态情况检测准确度高等优点。

    一种基于生成对抗网络和时间卷积网络的唇语识别方法

    公开(公告)号:CN112818950B

    公开(公告)日:2022-08-23

    申请号:CN202110262815.7

    申请日:2021-03-11

    摘要: 本发明公开了一种基于生成对抗网络和时间卷积网络的唇语识别方法。该方法首先通过ResNet角度分类器判断唇部偏转角度,之后利用的GAN二阶段转换器进行唇部矫正,最后送入TCN中进行特征识别分类生成唇语识别结果的高精度唇语识别方法;该方法克服了传统卷积模型无法解决的唇部特征提取受实际环境中光照强度、光照角度、识别角度、说话人身份等不确定性的影响,使唇语识别的准确性显著提高。本方法设计了密集多角度唇部变化原始数据,不仅实现了单个摄像机自身图像的连续,而且最大限度地实现了唇部图像在观测范围内的连续,有效解决现有多角度模型无法处理实际环境中连续变化的唇部图像的问题,从而提高唇语识别精度。

    基于视图和哈希算法的三维模型检索方法

    公开(公告)号:CN111597367A

    公开(公告)日:2020-08-28

    申请号:CN202010418065.3

    申请日:2020-05-18

    摘要: 本发明为一种基于视图和哈希算法的三维模型检索方法,该方法包括获取不同三维模型不同角度拍摄的多张视图图片,并归一化;构建基于AlexNet的卷积神经网络:在5层卷积层后经视图层连接两层全连接层,并在最后一个全连接层后加入哈希层,将高维特征转为低维的哈希码,转化过程中设计量化损失函数来减少哈希码的量化误差;利用已有三维模型数据集训练基于AlexNet的卷积神经网络,每个模型的特征用经过训练好的网络学习到的哈希特征表示;利用汉明距离计算任意给定查询三维模型与三维模型数据库中的三维模型的相似性,选定汉明距离最小的前几个模型作为结果输出到检索列表,能提高三维模型的检索效率。

    针对分割任务的医学影像特征增强方法

    公开(公告)号:CN112488937B

    公开(公告)日:2022-07-01

    申请号:CN202011356102.9

    申请日:2020-11-27

    摘要: 本发明为一种针对分割任务的医学影像特征增强方法,该方法包括以下内容:加载病例数据并按通道合并影像数据;构建循环一致性生成对抗网络,训练循环一致性生成对抗网络包括:计算对抗性损失、计算循环一致性损失、计算类别性损失约束模型训练过程;获得增强了病灶信息的特征图:通过训练好循环一致性生成对抗网络后,将所有病灶影像输入到GP→N,能输出对应的无病灶影像;之后再将循环一致性生成对抗网络输出的无病灶影像逐像素减去GP→N原始输入影像,获得增强了病灶信息的特征图;将原始影像多通道数据和获得的增强了病灶信息的特征图在通道方向上叠加,输入到病灶分割模型,完成分割任务。该方法有助于更精细的分割,提升分割能力。

    针对分割任务的医学影像特征增强方法

    公开(公告)号:CN112488937A

    公开(公告)日:2021-03-12

    申请号:CN202011356102.9

    申请日:2020-11-27

    摘要: 本发明为一种针对分割任务的医学影像特征增强方法,该方法包括以下内容:加载病例数据并按通道合并影像数据;构建循环一致性生成对抗网络,训练循环一致性生成对抗网络包括:计算对抗性损失、计算循环一致性损失、计算类别性损失约束模型训练过程;获得增强了病灶信息的特征图:通过训练好循环一致性生成对抗网络后,将所有病灶影像输入到GP→N,能输出对应的无病灶影像;之后再将循环一致性生成对抗网络输出的无病灶影像逐像素减去GP→N原始输入影像,获得增强了病灶信息的特征图;将原始影像多通道数据和获得的增强了病灶信息的特征图在通道方向上叠加,输入到病灶分割模型,完成分割任务。该方法有助于更精细的分割,提升分割能力。

    基于视频的人脸表情克隆方法

    公开(公告)号:CN113076918A

    公开(公告)日:2021-07-06

    申请号:CN202110422579.0

    申请日:2021-04-15

    摘要: 本发明为基于视频的人脸表情克隆方法,该方法包括以下内容:对提供的视频进行人脸检测;构建基于Ghost Bottleneck结构的轻量级卷积神经网络;整个网络对检测到的人脸图像进行预测,生成每帧图像对应的UV位置映射图,并根据UV位置映射图提取密集人脸关键点的三维位置信息;利用Open3D开源三维数据处理库,在对视频首个含人脸的视频帧进行人脸表情克隆时,结合密集人脸关键点的三维位置信息生成初始人脸模型,之后的每一帧,只对该初始人脸模型的顶点坐标信息进行更新,驱动人脸模型产生变形,并对每帧结果进行可视化,显示克隆出的人脸表情。实现了由人脸图像获取人脸关键点三维位置信息的过程,网络轻量高效,准确率高。

    一种基于生成对抗网络和时间卷积网络的唇语识别方法

    公开(公告)号:CN112818950A

    公开(公告)日:2021-05-18

    申请号:CN202110262815.7

    申请日:2021-03-11

    摘要: 本发明公开了一种基于生成对抗网络和时间卷积网络的唇语识别方法。该方法首先通过ResNet角度分类器判断唇部偏转角度,之后利用的GAN二阶段转换器进行唇部矫正,最后送入TCN中进行特征识别分类生成唇语识别结果的高精度唇语识别方法;该方法克服了传统卷积模型无法解决的唇部特征提取受实际环境中光照强度、光照角度、识别角度、说话人身份等不确定性的影响,使唇语识别的准确性显著提高。本方法设计了密集多角度唇部变化原始数据,不仅实现了单个摄像机自身图像的连续,而且最大限度地实现了唇部图像在观测范围内的连续,有效解决现有多角度模型无法处理实际环境中连续变化的唇部图像的问题,从而提高唇语识别精度。

    基于视图和哈希算法的三维模型检索方法

    公开(公告)号:CN111597367B

    公开(公告)日:2023-11-24

    申请号:CN202010418065.3

    申请日:2020-05-18

    摘要: 本发明为一种基于视图和哈希算法的三维模型检索方法,该方法包括获取不同三维模型不同角度拍摄的多张视图图片,并归一化;构建基于AlexNet的卷积神经网络:在5层卷积层后经视图层连接两层全连接层,并在最后一个全连接层后加入哈希层,将高维特征转为低维的哈希码,转化过程中设计量化损失函数来减少哈希码的量化误差;利用已有三维模型数据集训练基于AlexNet的卷积神经网络,每个模型的特征用经过训练好的网络学习到的哈希特征表示;利用汉明距离计算任意给定查询三维模型与三维模型数据库中的三维模型的相似性,选定汉明距离最小的前几个模型作为结果输出到检索列表,能提高三维模型的检索效率。

    基于视频的人脸表情克隆方法

    公开(公告)号:CN113076918B

    公开(公告)日:2022-09-06

    申请号:CN202110422579.0

    申请日:2021-04-15

    摘要: 本发明为基于视频的人脸表情克隆方法,该方法包括以下内容:对提供的视频进行人脸检测;构建基于Ghost Bottleneck结构的轻量级卷积神经网络;整个网络对检测到的人脸图像进行预测,生成每帧图像对应的UV位置映射图,并根据UV位置映射图提取密集人脸关键点的三维位置信息;利用Open3D开源三维数据处理库,在对视频首个含人脸的视频帧进行人脸表情克隆时,结合密集人脸关键点的三维位置信息生成初始人脸模型,之后的每一帧,只对该初始人脸模型的顶点坐标信息进行更新,驱动人脸模型产生变形,并对每帧结果进行可视化,显示克隆出的人脸表情。实现了由人脸图像获取人脸关键点三维位置信息的过程,网络轻量高效,准确率高。

    基于深度学习的实时视频人脸关键点检测方法

    公开(公告)号:CN112801043B

    公开(公告)日:2022-07-15

    申请号:CN202110262999.7

    申请日:2021-03-11

    摘要: 本发明为基于深度学习的实时视频人脸关键点检测方法,该方法采用卷积神经网络进行单帧的关键点检测,在其中应用深度可分离卷积提升模型检测速率、边界热图作为原有网络的一个附加的子任务提升原有网络全局人脸结构的约束,提升了原有网络的检测准确率、用于热图的解决数据不均衡损失函数提升在有限样本下模型对大姿态样本的泛化能力、光流损失函数加强帧间的平滑性。在检测过程中对于出现极端大角度而导致置信度低于关键点置信度阈值的帧,利用3DMM进行拟合得到密集关键点坐标,对取得的密集关键点根据最小化帧间的投影误差进行68点取样,保持与之前帧的一致性。具有实时性、能利用全局帧间信息、对人脸大姿态情况检测准确度高等优点。