一种基于视频文本匹配的动作识别方法

    公开(公告)号:CN116109980A

    公开(公告)日:2023-05-12

    申请号:CN202310116319.X

    申请日:2023-02-14

    Abstract: 本发明公开了一种基于视频文本匹配的动作识别方法,包括如下步骤:S1、构建视频数据集以及待分类标签,所述待分类标签为视频数据集中视频所对应的所有动作类别标签的全集;S2、构建动作识别模型,所述动作识别模型包括视频特征提取网络、语义特征提取网络和线性投射层;S3、根据相似度矩阵确定推理结果,分别计算标签推理结果与视频标签的交叉熵损失和视频推理结果与标签视频的交叉熵损失,对两个交叉熵损失求算术平均,作为动作识别模型的损失函数;S4、利用随机梯度下降法优化动作识别模型。该方法使用真实标签类别损失和的真实视频类别的算是平均值作为模型损失的损失函数,能够兼顾视频和文本两个模态,训练周期短、准确率高。

    一种利用空洞转置卷积沙漏结构的骨骼关键点检测方法

    公开(公告)号:CN114821776A

    公开(公告)日:2022-07-29

    申请号:CN202210414609.8

    申请日:2022-04-20

    Abstract: 本发明的目的就是针对现有技术的不足,提供一种利用空洞转置卷积沙漏结构的骨骼关键点检测方法,其利用空洞卷积的特性扩大时序感受野,并利用转置卷积增加时序和空域间的隐式建模能力,降低模型训练参数量、训练数据量和输入数据格式的要求,并充分利用GPU等通用型平台并行加速计算的特点,生成精确且平滑的3D骨骼关键点。获取待测的RGB视频集合后,依次进行本发明的步骤1‑6获得最终的3D骨骼关键点结果。本发明具有1)输入无需包含深度信息,2)利用卷积计算提高计算并行性,运行速度快,3)训练数据质量需求低,4)能够置换空洞常规卷积便于移动端部署和实时预测的四个优点。

Patent Agency Ranking