基于文本生成图像技术的文本视频检索优化方法

    公开(公告)号:CN118377933A

    公开(公告)日:2024-07-23

    申请号:CN202410802106.7

    申请日:2024-06-20

    Abstract: 本发明提供了基于文本生成图像技术的文本视频检索优化方法,本发明利用Stable Diffusion文本生成图像模型,通过对数据集中的文本信息进行图像生成,将生成的图像信息作为视频帧加入训练集,从而有效扩充数据规模。本发明还将考虑将关键帧信息反向生成文本信息,进一步丰富文本数据集。基于扩充的数据集,本发明将设计新的损失函数,综合考虑视频的细粒度与粗粒度特征,优化文本视频检索模型的训练过程,提升检索效果。本发明通过Stable Diffusion驱动的数据增强及优化的损失函数设计,能够有效解决现有文本视频检索研究中的数据缺乏和模型训练不充分等问题,为多媒体内容分析和检索应用提供新的技术支撑。

    基于文本生成图像技术的文本视频检索优化方法

    公开(公告)号:CN118377933B

    公开(公告)日:2024-08-16

    申请号:CN202410802106.7

    申请日:2024-06-20

    Abstract: 本发明提供了基于文本生成图像技术的文本视频检索优化方法,本发明利用Stable Diffusion文本生成图像模型,通过对数据集中的文本信息进行图像生成,将生成的图像信息作为视频帧加入训练集,从而有效扩充数据规模。本发明还将考虑将关键帧信息反向生成文本信息,进一步丰富文本数据集。基于扩充的数据集,本发明将设计新的损失函数,综合考虑视频的细粒度与粗粒度特征,优化文本视频检索模型的训练过程,提升检索效果。本发明通过Stable Diffusion驱动的数据增强及优化的损失函数设计,能够有效解决现有文本视频检索研究中的数据缺乏和模型训练不充分等问题,为多媒体内容分析和检索应用提供新的技术支撑。

    一种基于谷歌足球模拟器的强化学习方法

    公开(公告)号:CN118278295B

    公开(公告)日:2024-08-09

    申请号:CN202410712405.1

    申请日:2024-06-04

    Inventor: 陈京祥 张希 薛羽

    Abstract: 本发明提出了一种基于谷歌足球模拟器的强化学习方法,包括:基于谷歌足球模拟器构建谷歌足球环境,获取当前时刻的观测信息;根据观测信息利用训练好的大语言模型生成动作提示信息;根据动作提示信息,利用智能体从策略网络中选择动作并反馈到所述谷歌足球环境;根据动作执行后谷歌足球环境下的足球比赛视频和动作提示信息,利用训练好的视频文本检索模型计算视频与文本的相似度,进而得到相似度奖励;根据观测信息计算足球基础奖励;根据足球基础奖励和相似度奖励得到强化学习总奖励;根据强化学习总奖励,利用近端策略优化算法更新智能体的策略网络的参数。本发明能够在谷歌足球模拟器模拟的谷歌足球环境中提高强化学习性能。

    一种基于谷歌足球模拟器的强化学习方法

    公开(公告)号:CN118278295A

    公开(公告)日:2024-07-02

    申请号:CN202410712405.1

    申请日:2024-06-04

    Inventor: 陈京祥 张希 薛羽

    Abstract: 本发明提出了一种基于谷歌足球模拟器的强化学习方法,包括:基于谷歌足球模拟器构建谷歌足球环境,获取当前时刻的观测信息;根据观测信息利用训练好的大语言模型生成动作提示信息;根据动作提示信息,利用智能体从策略网络中选择动作并反馈到所述谷歌足球环境;根据动作执行后谷歌足球环境下的足球比赛视频和动作提示信息,利用训练好的视频文本检索模型计算视频与文本的相似度,进而得到相似度奖励;根据观测信息计算足球基础奖励;根据足球基础奖励和相似度奖励得到强化学习总奖励;根据强化学习总奖励,利用近端策略优化算法更新智能体的策略网络的参数。本发明能够在谷歌足球模拟器模拟的谷歌足球环境中提高强化学习性能。

Patent Agency Ranking