基于细粒度感知的文本视频跨模态检索方法和装置

    公开(公告)号:CN116166843A

    公开(公告)日:2023-05-26

    申请号:CN202310200445.3

    申请日:2023-03-02

    Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。

    视频检测方法、装置、设备及介质

    公开(公告)号:CN114724218A

    公开(公告)日:2022-07-08

    申请号:CN202210369060.5

    申请日:2022-04-08

    Abstract: 本公开涉及一种视频检测方法、装置、设备及介质。其中,视频检测方法包括:获取待检测的图像序列,图像序列包含同一视频中的至少两个视频帧;针对图像序列中的每个图像,对图像的脸部特征进行非线性变换处理,得到图像对应的脸部多个区域的注意力特征;基于各个图像对应的脸部多个区域的注意力特征,构建图像序列对应的脸部多个区域之间的时序关系特征;基于时序关系特征,计算视频为伪造脸部的视频的概率。根据本公开实施例,能够使得概率的计算结果的准确率更高、泛化能力更强,进而提高伪造脸部视频检测的精确度。

    一种多模态大型语言模型训练方法、电子设备及存储介质

    公开(公告)号:CN117409431B

    公开(公告)日:2024-04-26

    申请号:CN202311412797.1

    申请日:2023-10-27

    Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。

    一种多模态大模型训练策略确定方法、电子设备及介质

    公开(公告)号:CN117407754B

    公开(公告)日:2024-04-19

    申请号:CN202311415357.1

    申请日:2023-10-27

    Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。

    基于细粒度感知的文本视频跨模态检索方法和装置

    公开(公告)号:CN116166843B

    公开(公告)日:2023-11-07

    申请号:CN202310200445.3

    申请日:2023-03-02

    Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。

Patent Agency Ranking