基于深度时间对齐梯度增强的神经网络的训练方法及装置

    公开(公告)号:CN119538100A

    公开(公告)日:2025-02-28

    申请号:CN202510081115.6

    申请日:2025-01-17

    Abstract: 本申请公开了一种基于深度时间对齐梯度增强的神经网络的训练方法及装置。所述训练方法包括:获取输入样本数据;将输入样本数据输入到基于深度时间对齐梯度增强的神经网络模型,得到与输入样本数据的类别对应的预测类别概率数据;根据预测类别概率数据和样本标签数据,调整基于深度时间对齐梯度增强的神经网络模型的各个参数,得到训练后的神经网络模型,其中,基于深度时间对齐梯度增强的神经网络模型包括输入层、K个阶段和输出层,第1个阶段至第K‑1个阶段各自包括基于深度时间对齐梯度增强的卷积网络和辅助分类器网络,并且第K个阶段包括基于深度时间对齐梯度增强的卷积网络,其中,K为大于1的正整数。

    基于顺序提示和检索增强生成的标签序列生成方法

    公开(公告)号:CN119537647A

    公开(公告)日:2025-02-28

    申请号:CN202510104911.7

    申请日:2025-01-23

    Abstract: 本发明提供一种基于顺序提示和检索增强生成的标签序列生成方法,属于数据处理技术领域,所述方法包括:将目标视频输入至标签序列生成模型中,标签序列生成模型在获取到目标视频的帧特征和文本特征之后,对帧特征和文本特征进行特征融合,得到多模态混合特征;基于多模态混合特征,生成目标视频的顺序提示,顺序提示用于按序提示目标视频的重点关注特征;从多个检索系统中检索到相关视频后,基于相关视频的标签,生成提示语句,相关视频是与目标视频相关的视频;基于多模态混合特征、顺序提示和提示语句,生成目标视频的标签序列并输出。本发明不依赖标签集合,可以有效缓解标签长尾问题,提高标签多样性和相关性。

    基于类脑脉冲强化学习的避障方法及装置

    公开(公告)号:CN119376397A

    公开(公告)日:2025-01-28

    申请号:CN202411513196.4

    申请日:2024-10-28

    Abstract: 本发明提供基于类脑脉冲强化学习的避障方法及装置,涉及自动化与智能传感技术领域,所述方法包括将机器人的线速度、角速度、目标距离、方向以及雷达数据进行预处理后输入脉冲神经网络,得到机器人的动作;其中,使用强化学习DDPG对脉冲神经网络进行训练,使用评论家网络优化参数,损失值小于一定阈值则得到训练好的脉冲神经网络模型。脉冲神经网络中,目标数据、自身数据由一个全连接层处理,雷达数据由另一个全连接层处理,将两个全连接层输出的融合特征进行加权后再经过全连接层得到机器人动作。本发明实现了在静态复杂场景下的机器人无图避障导航,并提升了导航的性能。

    图像重建方法、模型训练方法、装置、设备、介质及产品

    公开(公告)号:CN118780985B

    公开(公告)日:2024-12-13

    申请号:CN202411259633.4

    申请日:2024-09-10

    Abstract: 本发明提供了一种图像重建方法、模型训练方法、装置、设备、介质及产品,可以应用于图像超分辨率重建领域。图像重建方法包括:对存在质量损失的退化图像进行特征提取,得到表征图像底层细节的底层图像特征和表征图像退化信息的隐式退化特征;利用隐式退化特征调节器分别对隐式退化特征进行通道级和空间级的扩展;将扩展后的隐式退化特征融入到底层图像特征中,分别得到融合了图像退化信息的通道图像特征和空间图像特征;将通道图像特征和空间图像特征进行特征融合并引入底层图像特征,以对退化图像的高频细节进行恢复;将进行细节恢复后得到的图像特征输入图像超分辨率模块中,输出重建的目标图像,其中,目标图像的分辨率高于退化图像。

    基于事件感知的跨模态视频文本检索模型的训练方法

    公开(公告)号:CN118410210B

    公开(公告)日:2024-11-19

    申请号:CN202410845065.X

    申请日:2024-06-27

    Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。

    视频标签序列生成方法和装置

    公开(公告)号:CN116821417A

    公开(公告)日:2023-09-29

    申请号:CN202311082820.5

    申请日:2023-08-28

    Abstract: 本发明实施例提供了一种视频标签序列生成方法和装置,其中,该方法包括:对样本视频内容和标题进行多模态特征提取得到多种特征编码;将多种特征编码输入到预训练的多模态混合编码器中进行特征融合,得到多模态混合特征;通过顺序提示模型为样本视频生成对应的顺序提示信息;将顺序提示信息与样本视频对应的标签进行对齐训练,得到每个顺序提示信息与标签的唯一对应关系;基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列,通过目标序列和多模态混合特征对顺序感知标签解码器进行训练,得到训练好的标签解码器。通过本发明,解决了视频标签开集生成的问题,提高了模型预测未见标签的能力和拓展性。

    内容安全检测模型训练方法、检测方法和装置

    公开(公告)号:CN116778376A

    公开(公告)日:2023-09-19

    申请号:CN202310530291.4

    申请日:2023-05-11

    Abstract: 本发明提供一种内容安全检测模型训练方法、检测方法和装置,其中训练方法包括:获取第一样本视频,并提取第一样本视频的压缩域信息;提取第一样本视频中的各帧图像在标准色域下的多源特征;基于第一样本视频的压缩域信息和标准色域下的多源特征,对初始模型进行跨模态蒸馏学习,得到训练完成的内容安全检测模型。本发明提供的内容安全检测模型训练方法、检测方法和装置,相比于现有的逐帧提取标准色域信息,极大提高了信息提取效率,并利用标准色域下的多源特征,对初始模型进行跨模态蒸馏学习,从而提升了压缩域内容安全检测的性能,能够同时兼顾效率和性能。

    一种分类模型训练方法、装置及设备

    公开(公告)号:CN115795355B

    公开(公告)日:2023-09-12

    申请号:CN202310095677.7

    申请日:2023-02-10

    Abstract: 本发明实施例涉及人工智能领域,公开了一种分类模型训练方法、装置及设备。本发明实施例涉及的分类模型训练方法,其特征在于,所述方法包括:获取待训练样本集进行特征提取,得到第一特征向量,计算得到原型特征向量;调用预设的损失调节器针对待训练的分类模型对应的损失函数进行参数调整,得到目标分类模型。这样,可以在模型训练过程中,基于当前学习结果及时施加相应的策略调整,提高了分类模型在小样本学习环境中训练的准确性,进而提高了训练后模型进行分类作业的正确率。

Patent Agency Ranking