一种三维手部姿态估计器构建方法及系统

    公开(公告)号:CN117612204A

    公开(公告)日:2024-02-27

    申请号:CN202311583180.6

    申请日:2023-11-24

    Abstract: 本发明涉及一种三维手部姿态估计器构建方法及系统,对相机采集的手部图像数据进行高分辨率特征提取;利用不同尺度热力图模块的三个分支从高分辨率特征中学习三维手部关节点特征、三维手部网格顶点特征和注意力特征三种不同的特征;通过特征融合获得带有三维手部关节点特征和三维手部网格顶点特征的多信息特征;通过多层Transformer编码器‑解码器模块学习多信息特征和全局特征之间的联系;最后通过回归器回归三维手部关节点和三维手部粗网格顶点,再利用网格的上采样生成三维手部精细网格顶点,完成三维手部姿态估计器构建任务。本发明提高了三维手部姿态估计的速度,降低了预测的三维手部关节点与真实三维手部关节点坐标之间的平均欧氏距离。

    一种三维物体检测器构建方法及系统

    公开(公告)号:CN116311217A

    公开(公告)日:2023-06-23

    申请号:CN202211675363.6

    申请日:2022-12-26

    Abstract: 本发明涉及一种三维物体检测器构建方法及系统,对采集的点云数据进行点特征、边特征、面特征、线特征的提取,同时获取N个种子点;利用第一层几何感知模块来学习四种类型特征的四通道加权图并计算得到加权特征,使用第一层上下文感知模块来构建种子点之间的关系;通过三个卷积层提取三种几何原语;再通过第二层上下文感知模块对三种几何原语的特征即区域块之间建立关联得到,利用第二层几何感知模块学习三种几何原语的三通道加权图并计算得到加权特征;利用提议生成模块获得物体的区域提议,完成三维物体检测器构建任务。本发明提高三维物体检测的精度,提升了室内场景的多尺度物体检测精度。

    基于深度强化学习的多标签分类方法、设备、介质及产品

    公开(公告)号:CN118673423A

    公开(公告)日:2024-09-20

    申请号:CN202410813773.5

    申请日:2024-06-21

    Abstract: 本发明公开了一种基于深度强化学习的多标签分类方法、设备、介质及产品,涉及分类领域,该方法包括获取医疗特征值集合;确定医疗特征值集合中初始时刻的医疗特征值的状态;将初始时刻的医疗特征值的状态输入特征编码器进行编码,得到状态编码;将状态编码输入特征选择器,得到具有最大Q函数值的动作;动作包括:分类动作和特征;判断具有最大函数值的动作是否为分类动作;若否,则进行状态转移,将下一时刻的医疗特征值的状态进行编码,并返回步骤“将所述状态编码输入特征选择器,得到具有最大函数值的动作”;若是,则将状态编码输入多标签分类器,得到最终的分类结果。本发明可在不完整数据下进行个性化多标签分类。

    一种基于RGB-D的室内场景逐像素语义分类器构造方法及系统

    公开(公告)号:CN113222003B

    公开(公告)日:2023-08-01

    申请号:CN202110498856.6

    申请日:2021-05-08

    Abstract: 本发明涉及一种基于RGB‑D的室内场景逐像素语义分类器构造方法及系统,其方法包括:S1:对室内场景进行图像采集,获取RGB数据和Depth数据;S2:定义图像中的物体类别,并对其每一个像素进行类别标注;S3:将RGB数据和Depth数据,分别输入特征提取模块,同时将RGB数据输入深度估计模块,对RGB数据特征提取过程进行监督,得到对应的特征frgb和fdepth;S4:将frgb和fdepth输入尺度感知模块,得到尺度感知特征和S5:将和分别输入自注意力机制模块,获得特征和特征S6:将和输入模态自适应模块,计算模态自适应权重,利用模态自适应权重,融合和得到图像的逐像素语义分类。本发明可以应用在室内场景的理解上,利用采集到的RGB‑D图像逐像素语义信息,可以有效的帮助室内自动导航等应用。

    一种基于RGB-D的室内场景逐像素语义分类器构造方法及系统

    公开(公告)号:CN113222003A

    公开(公告)日:2021-08-06

    申请号:CN202110498856.6

    申请日:2021-05-08

    Abstract: 本发明涉及一种基于RGB‑D的室内场景逐像素语义分类器构造方法及系统,其方法包括:S1:对室内场景进行图像采集,获取RGB数据和Depth数据;S2:定义图像中的物体类别,并对其每一个像素进行类别标注;S3:将RGB数据和Depth数据,分别输入特征提取模块,同时将RGB数据输入深度估计模块,对RGB数据特征提取过程进行监督,得到对应的特征frgb和fdepth;S4:将frgb和fdepth输入尺度感知模块,得到尺度感知特征和S5:将和分别输入自注意力机制模块,获得特征和特征S6:将和输入模态自适应模块,计算模态自适应权重,利用模态自适应权重,融合和得到图像的逐像素语义分类。本发明可以应用在室内场景的理解上,利用采集到的RGB‑D图像逐像素语义信息,可以有效的帮助室内自动导航等应用。

    一种运动风格迁移系统的构建方法和装置

    公开(公告)号:CN120032425A

    公开(公告)日:2025-05-23

    申请号:CN202510144641.2

    申请日:2025-02-10

    Abstract: 本发明公开了一种运动风格迁移系统的构建方法和装置,方法包括:针对性对数据集处理并生成富有表达力的文本描述;Transformer编码器对风格动作输入进行编码得到风格动作特征;一维卷积网络对内容动作输入进行编码得到内容动作特征;CLIP文本编码器对输入运动的文本描述提取语义特征;特征对齐部分利用CLIP文本编码器生成的风格或内容语义特征与对应编码器生成的动作特征进行特征对齐;动作生成器通过调整特征的均值和方差生成风格迁移后的结果;判别器区分生成与真实运动序列。采用本发明技术方案提升了内容和风格运动之间实现风格迁移的准确率,提高了运动风格迁移的自然性和有效性,并且具有良好的泛化能力。

    一种基于残差网络的多阶段人体异常动作检测方法

    公开(公告)号:CN114202803A

    公开(公告)日:2022-03-18

    申请号:CN202111553555.5

    申请日:2021-12-17

    Abstract: 本发明涉及一种基于残差网络的多阶段人体异常动作检测方法,步骤为:将待检测视频片段,切分为等长度的视频实例;使用目标检测网络模型得到每个监控视频实例中出现的人体目标边界框和位置和尺寸大小;根据人体边界框信息,使用动作识别网络模型在每个监控视频实例中计算边界框中人体动作的类别与置信度;使用异常分数学习模型给出每个监控视频实例的异常得分并进行加权融合。本发明能够快速获得监控视频中的异常动作信息,并设计了检测人体边界框所需的目标检测网络模型、分析人体动作的动作识别网络模型以及预测异常得分的异常分数学习模型。本发明实现常见监控视频场景下的人体异常动作检测,方法简洁、误报率低,具有一定的实用价值。

    一种基于残差网络的多阶段人体异常动作检测方法

    公开(公告)号:CN114202803B

    公开(公告)日:2025-04-18

    申请号:CN202111553555.5

    申请日:2021-12-17

    Abstract: 本发明涉及一种基于残差网络的多阶段人体异常动作检测方法,步骤为:将待检测视频片段,切分为等长度的视频实例;使用目标检测网络模型得到每个监控视频实例中出现的人体目标边界框和位置和尺寸大小;根据人体边界框信息,使用动作识别网络模型在每个监控视频实例中计算边界框中人体动作的类别与置信度;使用异常分数学习模型给出每个监控视频实例的异常得分并进行加权融合。本发明能够快速获得监控视频中的异常动作信息,并设计了检测人体边界框所需的目标检测网络模型、分析人体动作的动作识别网络模型以及预测异常得分的异常分数学习模型。本发明实现常见监控视频场景下的人体异常动作检测,方法简洁、误报率低,具有一定的实用价值。

    一种在虚拟场景下对人形角色进行生成和编辑的方法及系统

    公开(公告)号:CN119832195A

    公开(公告)日:2025-04-15

    申请号:CN202411873058.7

    申请日:2024-12-18

    Abstract: 本发明涉及一种在虚拟场景下对人形角色进行生成和编辑的方法及系统,方法包括:通过使用大语言模型将用户的自然语言命令转译成为一个1×6的指令序列,该指令序列是1×6的矩阵;通过解析指令序列,对虚拟角色进行生成、删除、体型调整和姿态调整的操作;其中,姿态调整:通过解析指令序列获取当前将要进行调整的身体部位及其变化趋向,从而使该部位的旋转量在对应轴向上进行一定幅度的离散的改变;体型调整:通过解析指令序列获取当前将要进行调整的身体部位及其变化趋向,从而实现体型参数的改变或是使对应部位的缩放量在对应轴向上进行改变。本发明提出了较为新颖的虚拟现实交互方式,具有直观高效、易于上手的突出优点。

Patent Agency Ranking