基于人眼动态变化的三维人脸重建方法、装置及存储介质

    公开(公告)号:CN116993929B

    公开(公告)日:2024-01-16

    申请号:CN202311263345.1

    申请日:2023-09-27

    Abstract: 本申请公开了一种基于人眼动态变化的三维人脸重建方法、装置及存储介质,方法包括:利用初始三维人脸模型确定的三维人脸来确定渲染图像;利用眼状态检测器确定闭眼概率,基于闭眼概率来对人眼关键点进行调整以得到调整后的训练图像;基于渲染图像、训练图像和调整后的训练图像确定的混合损失函数和动态损失函数训练初始三维人脸模型,以得到三维人脸模型;基于三维人脸模型生成重建三维人脸。本申请通过眼状态检测器捕捉的动态细节来确定闭眼概率,根据闭眼概率来对人眼关键点进行调整,通过在弱监督学习过程中引入利用调整后的人眼关键点的动态损失函数,解决了人脸局部区域三维重建的不一致性问题,提高了重建三维人(56)对比文件Jingxiang Sun et al.Next3D:Generative Neural Texture Rasterizationfor 3D-Aware Head Avatars.arxiv.2023,第1-12页.

    一种基于多模道特征融合的人体行为识别方法和装置

    公开(公告)号:CN109086659B

    公开(公告)日:2023-01-31

    申请号:CN201810607403.0

    申请日:2018-06-13

    Abstract: 本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括:1)针对输入的深度图像序列构建自适应分层结构;2)在自适应分层结构的每个层级提取DMM特征;3)串联每个层级的DMM特征,构建自适应深度运动图特征作为深度图像通道特征;4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点;5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;6)联合整个骨架图像序列,得到一个动作序列的特征表达作为骨架图像通道特征;7)通过特征融合并对融合后的特征进行分类,得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。

    协同双通道时频掩码估计任务学习的双耳声源定位方法及系统

    公开(公告)号:CN112731291A

    公开(公告)日:2021-04-30

    申请号:CN202011096916.3

    申请日:2020-10-14

    Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。

    一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

    公开(公告)号:CN110517705A

    公开(公告)日:2019-11-29

    申请号:CN201910808413.5

    申请日:2019-08-29

    Abstract: 本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。

    一种基于多模道特征融合的人体行为识别方法和装置

    公开(公告)号:CN109086659A

    公开(公告)日:2018-12-25

    申请号:CN201810607403.0

    申请日:2018-06-13

    Abstract: 本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括:1)针对输入的深度图像序列构建自适应分层结构;2)在自适应分层结构的每个层级提取DMM特征;3)串联每个层级的DMM特征,构建自适应深度运动图特征作为深度图像通道特征;4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点;5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;6)联合整个骨架图像序列,得到一个动作序列的特征表达作为骨架图像通道特征;7)通过特征融合并对融合后的特征进行分类,得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。

    基于参数自调节神经网络的人体异常行为检测方法

    公开(公告)号:CN105913011A

    公开(公告)日:2016-08-31

    申请号:CN201610216333.7

    申请日:2016-04-08

    CPC classification number: G06K9/00342 G06K9/00751 G06N3/08

    Abstract: 本发明涉及一种基于参数自调节神经网络的人体异常行为检测方法。本发明是基于一种双层神经网络,即生长式神经气体模型,利用其灵活“生长”的优势对场景中的可变行为模式进行学习和建模。本发明针对其因固定参数无法实现自适应调整的问题进行了重要改进,提出了针对气体神经元生长、学习、删除等过程中的模型参数自适应调整方法。在模型用于判断行为是否异常时,本发明提出了基于双层高斯平滑窗的判断方法,实现多变场景中的快速的异常行为判别。

    一种基于双耳匹配滤波器的双耳声音源定位方法

    公开(公告)号:CN103901401B

    公开(公告)日:2016-08-17

    申请号:CN201410143474.1

    申请日:2014-04-10

    Inventor: 刘宏 张结 丁润伟

    Abstract: 本发明公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法,首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

Patent Agency Ranking