基于多模态大语言模型的任意骨架运动生成方法及系统

    公开(公告)号:CN119107392B

    公开(公告)日:2025-03-14

    申请号:CN202411591349.7

    申请日:2024-11-08

    Abstract: 本发明公开一种基于多模态大语言模型的任意骨架运动生成方法及系统,涉及计算机技术领域,解决基于文本驱动骨架动画难以保证运动自然性和连贯性,准确性和效率较低的技术问题。该方法包括:基于多模态大语言模型理解给定的骨架结构;将给定的抽象运动描述细化为关键帧的每个关节的具体运动描述;将每个关键帧的运动描述和标准姿势进行对比,生成关键帧;对关键帧进行可视化,对可视化结果进行评价并反馈;根据关键帧的信息以及运动描述生成剩余帧;对骨架结构的全部帧进行可视化,再进行评价并反馈;将对象表面和骨架结构进行绑定,生成骨架运动。本发明通过多模态大语言模型推理并细化抽象运动描述,提高了生成任意骨架运动的准确性和效率。

    一种面向目标检测领域自适应模型的无监督模型选择方法

    公开(公告)号:CN119360149A

    公开(公告)日:2025-01-24

    申请号:CN202411520278.1

    申请日:2024-10-29

    Abstract: 本发明属于目标检测技术领域,涉及领域自适应目标检测(DAOD),具体提供一种面向目标检测领域自适应模型的无监督模型选择方法,用以在不依赖目标域标签的情况下实现目标检测模型的有效评估和选择,进而实现领域自适应目标检测。本发明提出基于模型变异性与领域分布距离的组合指标,在模型变异性方面,设计平滑指数评分(FIS),通过模型扰动前后的目标预测结果相似性衡量模型在参数空间中的平坦性;在领域分布距离方面,提出原型距离比评分(PDR),通过计算不同类别目标在特征空间中的距离比值,衡量领域分布的距离;最后将平滑指数评分与原型距离比评分归一化后结合作为组合指标,用以完成目标检测领域自适应模型的无监督模型选择任务。

    一种基于隐音素检索的数字人口型多样性增强方法

    公开(公告)号:CN118921516B

    公开(公告)日:2025-01-24

    申请号:CN202411376512.8

    申请日:2024-09-30

    Abstract: 本发明属于数字人口型动画合成技术领域,具体涉及一种基于隐音素检索的数字人口型多样性增强方法,用以增强数字人口型动画的真实性和多样性。具体而言,在传统的音素‑视素匹配方案中,由于音素和视素的类别数量受限于人为定义,导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化,进而影响了口型动画的自然流畅性。为了克服这一局限,本发明采用深度学习技术,对数字人的音视频素材进行预处理、特征提取,并构建了一个隐音素‑视素库。在实时交互中,通过音频隐音素的检索和匹配,实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代,提高口型动画的连贯性和真实感。

    一种降低浮点指数运算对算力的消耗的方法

    公开(公告)号:CN118502716B

    公开(公告)日:2025-01-17

    申请号:CN202410560967.9

    申请日:2024-05-08

    Abstract: 本发明公开了一种线性查找表构建方法及查询方法,本发明针对指数运算的结果,建立了一个线性查找表,并联合尺度因子等量化参数,进行每一段分段的端点查找和确认。本发明可以适应更广泛的激活范围,在极端情况下得到比一对一查找表更优秀的运算速度,同时极大地减少了算力上的消耗,可以有效提高深度学习中涉及自然指数运算操作的效率。

    跨域小样本的识别模型的训练方法、识别方法及设备

    公开(公告)号:CN118675017B

    公开(公告)日:2024-11-05

    申请号:CN202411144032.9

    申请日:2024-08-20

    Abstract: 本申请公开了一种跨域小样本的识别模型的训练方法、识别方法及设备,训练方法包括:获取任意源域图像的振幅特征和任意目标域图像的振幅特征,将源域图像的振幅特征替换为目标域图像的振幅特征,获得类目标域图像;将多张源域图像、多张目标域图像和多张类目标域图像作为训练集;利用训练集对识别模型进行训练,其中在利用源域图像和类目标域图像进行训练的过程中,将源域图像的注意力矩阵和类目标域图像的注意力矩阵替换为目标域图像的注意力矩阵,以对源域图像和类目标域图像的特征矩阵进行重建。本申请能够实现目标域的信息感知,从而能够增强源域图像的表达能力,能更好丰富样本特征。

    一种跨域目标检测模型训练方法、目标检测方法及装置

    公开(公告)号:CN118570610A

    公开(公告)日:2024-08-30

    申请号:CN202411001398.0

    申请日:2024-07-25

    Abstract: 本发明公开了一种跨域目标检测模型训练方法、目标检测方法及装置,涉及目标检测技术领域,解决了目标检测模型的泛化能力弱,在面对自动驾驶场景下复杂多变的实际场景检测效果差的技术问题。该方法包括:根据所述领域训练样本进行训练,得到初始检测模型;构建领域判别模块,通过所述领域判别模块与所述初始检测模型进行对抗训练,由所述领域判别模块输出对抗结果;获取所述领域训练样本的前景权重信息,给所述对抗结果施加前景权重信息的约束,构建得到前景感知模块;通过所述领域判别模块和前景感知模块对所述初始检测模型进行交替训练,得到跨域目标检测模型。本发明的检测模型泛化能力强,检测效果好。

    机器人运动决策的离线强化学习方法及控制方法

    公开(公告)号:CN118504652A

    公开(公告)日:2024-08-16

    申请号:CN202410519825.8

    申请日:2024-04-28

    Abstract: 本发明公开了机器人运动决策的离线强化学习方法及控制方法,本发明通过将集成的部分与强化学习训练部分解耦,放入反探索奖励建模的部分,从而大幅度了离线强化学习算法训练时间成本并且极大降低了对算力设备的要求。本发明通过集成式的随机网络蒸馏方法对训练中输入的状态‑动作对进行预测并计算出对应的反探索奖励,通过利用神经网络自身的泛化性来约束智能体探索,无需控制散度约束的力度,避免了超参数设置不当带来的约束过强或者过弱的问题。

    随机性人体运动预测方法、终端设备及存储介质

    公开(公告)号:CN118485692A

    公开(公告)日:2024-08-13

    申请号:CN202410939179.0

    申请日:2024-07-15

    Abstract: 本发明公开了一种随机性人体运动预测方法、终端设备及存储介质,解决了现有技术预测的未来运动不够准确,且无法实现语义可控预测。涉及人体运动分析技术领域。其步骤包括:将获取的过去人体骨架序列对应的条件特征与根据查询条件得到的可学习运动查询向量耦合,得到耦合特征;将耦合特征进行拓扑空间压缩,抽象出全局特征;通过全局特征预测潜在空间中构建的正交基的系数;将预测的系数与正交基进行线性组合,将线性组合结果与条件特征耦合,将耦合结果解码,得到预测的多个未来人体骨架序列。本发明有效解决了现有技术预测不够准确且无法语义可控预测的问题。

    动作预测分析系统
    39.
    发明公开

    公开(公告)号:CN118470596A

    公开(公告)日:2024-08-09

    申请号:CN202410589765.7

    申请日:2024-05-13

    Abstract: 本发明公开了动作预测分析系统,包括数据采集模块、图像预处理模块、基于样本重要性的剪枝模块、时序冗余性剪枝模块、模型训练模块和预测模块。本系统通过对已知标签的动作视频数据集进行两次剪枝,可以去掉训练样本的冗余信息,并保留高价值训练样本,使得动作预测模型的训练时间大幅缩短,同时提高动作预测模型的识别率。

    一种基于人体姿态的无人车控制指挥方法

    公开(公告)号:CN113158833B

    公开(公告)日:2023-04-07

    申请号:CN202110344628.3

    申请日:2021-03-31

    Abstract: 本发明公开了一种基于人体姿态的无人车控制指挥方法,包括以下步骤:S1:利用摄像头采集视频,转化为图片帧并进行预处理;S2:对预处理后的图片帧进行目标检测分析,得到人体区域框;S3:对人体区域框进行姿态检测,得到人体姿态特征信息;S4:对人体姿态特征信息进行匹配,得到完整动作;S5:对完整动作进行分类,并映射至无人车控制指令,完成无人车指令自动识别。本发明基于人体姿态实现无人车指令自动识别,创新以计算机视觉的方法来实现对无人车的交互式控制,对于控制指挥中心来说是一种高效的指挥控制方式,对无人车智能化的发展有着极大的促进作用。

Patent Agency Ranking