一种基于颜色和深度信息的多模态融合手势识别方法

    公开(公告)号:CN107025442A

    公开(公告)日:2017-08-08

    申请号:CN201710208523.9

    申请日:2017-03-31

    Inventor: 萧伟 刘宏 丁润伟

    Abstract: 本发明涉及一种基于颜色和深度信息的多模态融合手势识别方法,其步骤包括:1)使用彩色摄像机和深度摄像机同时对手势进行拍摄,得到手势的颜色和深度的原始数据;2)使用高斯平滑方法对颜色和深度的原始数据进行滤波,得到颜色和深度的平滑数据;3)将肤色和深度作为先验知识,对颜色和深度的平滑数据分别进行分割,得到肤色分割区域和深度分割区域;4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合,构成融合分割图;5)利用特征描述子对融合分割图提取特征,构成特征图;6)对特征图进行编码,构成手势编码;7)对手势编码进行识别,从而实现对手势的识别。本发明能够得到比现有技术更高的手势识别的准确率。

    基于智能手机平台的打鼾监测和防治方法及系统

    公开(公告)号:CN103251388A

    公开(公告)日:2013-08-21

    申请号:CN201310148053.3

    申请日:2013-04-25

    Abstract: 本发明涉及基于智能手机平台的打鼾监测和防治方法及系统,包括鼾声信号的分析模块、即时干预模块和信息反馈模块。监测和防治方法为:1)建立重度鼾声信号和轻度鼾声信号库,对鼾声信号分别进行预处理提取特征向量,训练重和轻度GMM模板;2)在手机客户端实时录入用户的鼾声信号进行处理,在特定时间窗内对处理完后的鼾声信号进行实时四维特征向量序列提取;3)将实时四维特征向量序列分别与轻度和重度两类鼾声GMM模板进行匹配,似然度最大的类作为识别结果;4)若打鼾程度判定为严重,计算当前时间窗内的最大鼾声间隔时间;5)若最大鼾声间隔超过10S,采用外界刺激制止用户打鼾。本发明能够即时进行外界干预,有效制止用户打鼾。

    一种基于点集表示的精确缺陷检测方法和系统

    公开(公告)号:CN114998281B

    公开(公告)日:2025-04-15

    申请号:CN202210686189.9

    申请日:2022-06-16

    Abstract: 本发明涉及一种基于点集表示的精确缺陷检测方法和系统。该方包括对检测目标采用点集进行表示;对于采用点集表示的检测目标,采用全局上下文特征金字塔网络来增强提取对比度明显的多尺度缺陷特征,采用感受野金字塔模块来获取和融合不同尺度大小的缺陷特征,采用自适应正负样本分配检测头来筛选用于学习训练的缺陷正样本;依据筛选得到的缺陷正样本以及提取的缺陷特征,生成准确的缺陷类别以及精确的缺陷位置,实现检测功能。在此基础上,采用深度可分离卷积来代替普通卷积对网络进行轻量优化,以提升检测速度。本发明解决了低对比度问题带来的检测模糊性问题,解决了缺陷尺寸变化大带来的单一性问题,并且避免了不平衡正负样本带来的训练问题。

    一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统

    公开(公告)号:CN114092873B

    公开(公告)日:2024-11-05

    申请号:CN202111271643.6

    申请日:2021-10-29

    Inventor: 刘宏 石伟 丁润伟

    Abstract: 本发明涉及一种基于外观与形态解耦的长时期跨摄像头目标关联方法及系统。该方法对输入的训练图像通过人体稠密解析估计和边缘估计提取人体轮廓图像,求取训练图像与人体轮廓图像的残差,得到人体外观图像;利用形态表征模型对人体轮廓图像进行高级语义特征提取,利用外观表征模型对人体外观图像进行高级语义特征提取;利用三元组损失函数和识别损失函数训练外观表征模型和形态表征模型,采用学习的两个表征模型对待查询行人图像和候选行人图像提取形态特征和外观特征,通过计算相似性得分得到跨摄像头场景中的关联目标。本发明不需要采用复杂的对抗学习模型就能提取行人的形态信息,并可避免挖掘涉及隐私的人脸信息及不可靠的行人步态信息。

    基于视觉语言模型的三维人体行为识别网络训练方法

    公开(公告)号:CN117576786B

    公开(公告)日:2024-04-16

    申请号:CN202410059351.3

    申请日:2024-01-16

    Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。

    一种基于图和注意力交织的三维人体姿态估计方法及系统

    公开(公告)号:CN116129051A

    公开(公告)日:2023-05-16

    申请号:CN202310074209.1

    申请日:2023-02-07

    Abstract: 本发明涉及一种基于图和注意力交织的三维人体姿态估计方法及系统。该系统通过预训练的二维姿态检测器从图像特征中提取人体的二维骨架信息;将二维骨架嵌入到高维空间;利用图和注意力交织的网络模块挖掘骨架的局部和全局信息;利用U型结构的多层感知机模块捕获骨架的多层次信息;利用回归头模块将高维数据回归到三维骨架;利用关节点的平均误差作为模型训练的损失函数。本发明结合了图卷积和注意力机制在捕获骨架的局部和全局信息上的优势,允许图卷积模块和注意力模块之间双向通信以优势互补,可有效加强模型对人体骨架的建模能力,能够估计得到更接近真实三维姿态的结果。

    一种基于时空信息聚合的对比自监督人体行为识别方法及系统

    公开(公告)号:CN115019397A

    公开(公告)日:2022-09-06

    申请号:CN202210680841.6

    申请日:2022-06-15

    Abstract: 本发明涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统。该方法对输入的骨架动作序列进行数据增强得到增强后的两个动作序列;利用第一编码器和第二编码器即动量更新编码器将其编码成特征向量;利用预测器得到另一组特征向量,通过损失函数构造有效的单个数据流的特征空间。进一步地,计算骨架序列的运动信息和骨骼信息,并同样作为上述步骤的输入,并在得到特征之后计算特征相似度,数据流内部的相似度矩阵做尖锐处理,并在不同数据流间投票融合,得到相似度伪标签,将时空信息有效聚合后约束单个数据流的分布,来训练更优的模型。本发明训练得到的模型可以在实际应用中取得很好的行为识别效果。

    一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统

    公开(公告)号:CN110501673A

    公开(公告)日:2019-11-26

    申请号:CN201910808412.0

    申请日:2019-08-29

    Abstract: 本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。

    一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

    公开(公告)号:CN109147763A

    公开(公告)日:2019-01-04

    申请号:CN201810752379.X

    申请日:2018-07-10

    Inventor: 丁润伟 庞程 刘宏

    Abstract: 本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。

    一种基于机器视觉的工业品检测方法

    公开(公告)号:CN103903009A

    公开(公告)日:2014-07-02

    申请号:CN201410119481.8

    申请日:2014-03-27

    Abstract: 本发明公开了一种基于机器视觉的工业品检测方法,本发明为:1)对每种类型的工业产品进行采样与统计,得出该类型工业产品自身色差分布的统计模型和纹理方差分布的统计模型;2)从色差分布的统计模型中提取工业产品的色差特征,从纹理方差分布的统计模型中提取工业产品的纹理特征,根据提取的色差特征和纹理特征建立特征空间;3)利用支持向量机SVM对该特征空间进行划分,得到最优超平面作为对待检测物品进行检测的决策分类器,即分类阈值;4)利用粒子滤波框架对待测物品的色差与纹理进行采样,得到待检样本的统计向量;然后将该统计向量输入所述决策分类器,得到待测物品的类别。本发明大大改善了现行工业化生产中检测工序。

Patent Agency Ranking