-
公开(公告)号:CN116166843A
公开(公告)日:2023-05-26
申请号:CN202310200445.3
申请日:2023-03-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/783 , G06F40/289 , G06F18/22
Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。
-
公开(公告)号:CN114724218A
公开(公告)日:2022-07-08
申请号:CN202210369060.5
申请日:2022-04-08
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种视频检测方法、装置、设备及介质。其中,视频检测方法包括:获取待检测的图像序列,图像序列包含同一视频中的至少两个视频帧;针对图像序列中的每个图像,对图像的脸部特征进行非线性变换处理,得到图像对应的脸部多个区域的注意力特征;基于各个图像对应的脸部多个区域的注意力特征,构建图像序列对应的脸部多个区域之间的时序关系特征;基于时序关系特征,计算视频为伪造脸部的视频的概率。根据本公开实施例,能够使得概率的计算结果的准确率更高、泛化能力更强,进而提高伪造脸部视频检测的精确度。
-
公开(公告)号:CN113992944A
公开(公告)日:2022-01-28
申请号:CN202111265047.7
申请日:2021-10-28
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N21/234 , H04N21/2343 , H04N21/233 , H04N21/44 , H04N21/4402 , H04N21/439 , H04N21/845 , H04N21/8549
Abstract: 本公开涉及一种视频编目方法、装置、设备、系统及介质。其中,该视频编目方法包括:获取目标视频的视频特征;基于目标视频的视频特征,对目标视频进行切分,得到多个视频片段;针对每个视频片段,基于视频片段对应的视频文本,确定视频片段对应的视频标签,视频文本包括第一音频文本和第一字幕文本,视频标签至少包括语义标签;利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目,得到目标视频对应的编目结果。根据本公开实施例,能够提供一种自动化的视频编目方法,提高了视频编目的效率。
-
公开(公告)号:CN113766314A
公开(公告)日:2021-12-07
申请号:CN202111317971.5
申请日:2021-11-09
Applicant: 北京中科闻歌科技股份有限公司
IPC: H04N21/44 , H04N21/439 , H04N21/488 , G06K9/62 , G06K9/46 , G06K9/32 , G06K9/00
Abstract: 本公开涉及一种视频切分方法、装置、设备、系统及存储介质,该方法包括:获取目标视频的视频特征数据,视频特征数据包括音频数据、字幕数据和镜头数据;对音频数据进行切分,得到多个音频数据片段;基于镜头数据对字幕数据进行切分,得到多个字幕子数据;基于音频数据片段和字幕子数据对目标视频进行切分,得到多个视频片段。根据本公开实施例,实现了能够准确的切分目标视频,以进一步使得用户通过浏览目标视频切分后的视频片段,从目标视频中快速获取准确的信息,以准确且快速的浏览目标视频中所包含的信息。
-
公开(公告)号:CN117409431B
公开(公告)日:2024-04-26
申请号:CN202311412797.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06V30/413 , G06V30/146 , G06V30/19
Abstract: 本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。
-
公开(公告)号:CN117407754B
公开(公告)日:2024-04-19
申请号:CN202311415357.1
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/214 , G06F18/22 , G06N3/09
Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。
-
公开(公告)号:CN117390165A
公开(公告)日:2024-01-12
申请号:CN202311409539.8
申请日:2023-10-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/34
Abstract: 本申请涉及图表问答技术领域,特别是涉及一种基于多模态大模型的图表问答方法、系统、介质和设备。该方法包括:提取待处理图表中的目标文本信息,得到图表文本特征向量;提取上述待处理图表中目标图像信息,得到图表图像特征向量;将综合文本特征向量和图表图像特征向量进行对齐;根据对齐后的综合文本特征向量和图表图像特征向量生成待处理图表对应的问题对应的目标回答。本申请对于待处理图表的信息提取分为两部分进行,提供的待处理图表的信息更具针对性,更精确,则最终得到的图标问答对应的回答的准确性也越高。
-
公开(公告)号:CN116166843B
公开(公告)日:2023-11-07
申请号:CN202310200445.3
申请日:2023-03-02
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/783 , G06F40/289 , G06F18/22
Abstract: 本公开涉及一种基于细粒度感知的文本视频跨模态检索方法和装置。所述方法包括:通过文本特征编码模型,对待匹配文本进行特征提取,获得所述待匹配文本的多个词语的文本特征向量集;通过视频特征编码模型,对待匹配视频进行特征提取,获得多个目标对象的目标特征向量集;通过跨模态匹配模型,确定目标特征向量集和文本特征向量集之间的相关性得分。根据本公开的实施例的基于细粒度感知的文本视频跨模态检索方法,可在检索任务中引入更细粒度的语义特征,并在模型训练中针对更细粒度的语义特征的识别和对比能力加以训练,使得模型能够对更细粒度的语义特征进行检索,可提升跨模态检索的准确性。
-
公开(公告)号:CN116361509A
公开(公告)日:2023-06-30
申请号:CN202310217049.1
申请日:2023-03-02
Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06F16/75 , G06F16/735 , G06F16/783
Abstract: 本申请涉及视频分类技术领域,特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤:S100,抽取目标视频vid的视频时序特征Fts;将Fts进行聚合得到Fv;S200,将vid转换为wav格式的音频数据aud;抽取aud的音频时序特征Fas;将Fas进行聚合得到Fa;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息textocr,并结合vid的文本标题texttitle获取vid的第三特征向量Ft;S400,将Fv、Fa和Ft输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果。本发明实现了对短视频内容的准确分类。
-
公开(公告)号:CN116206295A
公开(公告)日:2023-06-02
申请号:CN202310196542.X
申请日:2023-03-02
Applicant: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06V20/60 , G06V10/22 , G06V10/426 , G06V10/74 , G06F16/583 , G06V10/776 , G06V10/82
Abstract: 本申请涉及计算机视觉技术领域,特别是涉及一种LOGO识别系统。该系统包括存储器,所述存储器存储有LOGO数据库,所述LOGO数据库由至少两个LOGO子数据库组成,不同LOGO子数据库对应的LOGO宽高比例范围不同;每个LOGO子数据库存储有对应LOGO的特征向量,每个LOGO子数据库中LOGO对应的特征向量的存储位置标号与对应的LOGO面积占比正相关或负相关;所述系统还包括处理器和存储有计算机程序的存储介质,当所述计算机程序被处理器执行时,实现对应的LOGO识别方法。本发明能够快速识别出图像和视频数据中的LOGO。
-
-
-
-
-
-
-
-
-