一种基于相对相似度的视频文本检索模型训练方法及装置

    公开(公告)号:CN118277525A

    公开(公告)日:2024-07-02

    申请号:CN202410376260.2

    申请日:2024-03-29

    Applicant: 江南大学

    Abstract: 本发明涉及一种基于相对相似度的文本视频检索模型训练方法,包括构建语料库的高频元素集合,获取每个视频数据的关键词集合,以便生成每个视频数据的语义标签特征,来计算任意两个视频数据的相对相似度,构建相对相似度矩阵;获取所有视频数据的帧级特征、时序帧级特征与视频级特征;获取每个文本描述的词级特征与句级特征;通过对不同的特征进行不同粒度的交互,获取细粒度相似度矩阵、视频粗粒度相似度矩阵与文本粗粒度相似度矩阵后,构建模态间损失函数、模态内视频对齐损失函数与模态内文本对齐损失函数,组成总损失函数;最小化总损失函数,获取训练好的视频编码器与训练好的文本编码器,构建视频文本检索模型。

    基于四元数小波变换上下文结构的医学图像融合新方法

    公开(公告)号:CN106504221A

    公开(公告)日:2017-03-15

    申请号:CN201610891328.6

    申请日:2016-10-13

    Applicant: 江南大学

    CPC classification number: G06T5/50 G06T2207/20221 G06T2207/30004

    Abstract: 本发明公开了一种基于四元数小波变换QWT(Quaternion Wavelet Transform)上下文结构的医学图像融合方法,主要解决医学图像融合时亮度、对比度等的变化以及原始图像信息丢失的问题。其实现步骤是:1)分别对待融合图像进行QWT处理得到待融合图像对应的QWT系数;2)对待融合图像的QWT系数的低频部分根据绝对值取大的融合规则进行融合,得到低频的融合系数;3)对待融合图像的QWT系数的高频部分求取高频子带系数对应的清晰度系数;4)基于上下文统计模型与清晰度系数设计融合规则,获得融合后的高频系数;5)根据得到的低频和高频的融合系数,利用QWT逆变换得到融合图像。本发明能充分整合医学图像的结构和功能信息,有效保护图像细节,改善视觉效果,相比传统的融合方法极大的提高了融合图像的质量。

    基于局部特征增强和模态交互的视频检索方法及系统

    公开(公告)号:CN117609553A

    公开(公告)日:2024-02-27

    申请号:CN202410093675.9

    申请日:2024-01-23

    Applicant: 江南大学

    Abstract: 本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统,涉及跨模态视频检索技术领域,该方法包括根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;获取时序化帧图像特征并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强;将文本分词特征和文本关键词特征进行特征融合,实现文本局部特征增强;将时序化帧图像特征和文本全局特征进行跨模态的交互,生成文本条件的视频特征;采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互,可以提高视频检索性能。

    基于四元数小波变换幅值与相位的图像清晰度评价方法

    公开(公告)号:CN105118057A

    公开(公告)日:2015-12-02

    申请号:CN201510507027.4

    申请日:2015-08-18

    Applicant: 江南大学

    CPC classification number: G06T7/0002 G06T2207/30168

    Abstract: 本发明公开了一种基于四元数小波变换幅值与相位的图像清晰度评价方法。(1)准备待进行评价的灰度图像;(2)对灰度图像进行四元数小波变换(QWT),得到变换系数;(3)由变换系数根据四元数代数计算得到各子带(LL、LH、HL、HH子带)对应的幅值与相位信息;(4)计算LL子带幅值水平、垂直和正对角方向的梯度;(5)根据梯度和相位信息计算得到清晰度。本发明克服了现有图像清晰度评价方法适用范围不全面的问题,并且很好地解决了计算效率的问题,使得评价效果更好,计算更具实时性。

    基于局部特征增强和模态交互的视频检索方法及系统

    公开(公告)号:CN117609553B

    公开(公告)日:2024-03-22

    申请号:CN202410093675.9

    申请日:2024-01-23

    Applicant: 江南大学

    Abstract: 本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统,涉及跨模态视频检索技术领域,该方法包括根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;获取时序化帧图像特征并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强;将文本分词特征和文本关键词特征进行特征融合,实现文本局部特征增强;将时序化帧图像特征和文本全局特征进行跨模态的交互,生成文本条件的视频特征;采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互,可以提高视频检索性能。

    一种基于大语言模型语义驱动的视频检索方法及系统

    公开(公告)号:CN119397057A

    公开(公告)日:2025-02-07

    申请号:CN202411990362.X

    申请日:2024-12-31

    Applicant: 江南大学

    Abstract: 本发明涉及文本视频检索技术领域,尤其是指一种基于大语言模型语义驱动的视频检索方法及系统,包括:获取查询文本和候选视频集合;构建文本视频检索模型;将候选视频集合输入文本视频检索模型,经过视频特征提取器得到每个候选视频的视频特征;将查询文本嵌入预设的提示语句后,与所有候选视频的视频特征输入至大语言模型,输出查询文本与每个候选视频的相似度;依据查询文本与每个候选视频的相似度输出视频检索结果。本发明构建包含动态变化和空间细节的视频特征,并利用大语言模型强大的语义推理能力获得跨模态语义关系,符合人类检索的认知行为,增强了模型的可解释性,提高了跨模态文本视频检索的精度和效率。

Patent Agency Ranking