一种多模态融合的采访镜头检测方法

    公开(公告)号:CN101316327B

    公开(公告)日:2010-05-26

    申请号:CN200710099725.0

    申请日:2007-05-29

    Abstract: 本发明公开了一种多模态融合的采访镜头检测方法,包括:输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头;根据视频预处理操作所得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否为包含人脸的镜头;融合人声检测结果和人脸检测结果,如果一个镜头中同时包含人声和人脸信息,则镜头为采访镜头。本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。

    一种色情视频检测方法及检测系统

    公开(公告)号:CN101441717A

    公开(公告)日:2009-05-27

    申请号:CN200710177875.9

    申请日:2007-11-21

    Abstract: 本发明提供一种色情视频检测方法,包括:在待检测视频的视频帧中,利用肤色模型和非肤色模型,计算视频帧的各个像素点的肤色概率值与非肤色概率值;根据视频帧中像素点的肤色概率值与非肤色概率值,为视频帧建立模版图像;根据模版图像,从视频帧中提取图像特征;将连续视频帧中的图像特征组成观测序列,将所述观测序列输入到色情镜头模型中以检测待检测视频是否为色情视频。本发明还提供了一种与色情视频检测方法相适应的检测系统。本发明在检测过程中采用了相邻视频帧的时序特性,使得整个视频检测方法的鲁棒性更强,检测准确率更高。

    基于扩散模型的虚拟主播全身视频生成方法及系统

    公开(公告)号:CN117979115A

    公开(公告)日:2024-05-03

    申请号:CN202410069876.5

    申请日:2024-01-17

    Abstract: 本发明提出一种基于扩散模型的虚拟主播全身视频生成方法和系统,包括:获取人物视频,每个人物视频具有对应的人物外观控制图像;构建用于生成视频的扩散模型,输入人物外观控制图像至图像编码器,得到训练外观描述;为人物视频的帧画面添加噪声数据得到含噪图像;图像去噪模型根据训练外观描述和含噪图像对应的三维人体数据,进行图像去噪,构建损失函数训练扩散网络,得到虚拟人物视频生成模型;获取人物全身姿态的多帧目标三维数据和其目标虚拟人物图像,输入目标虚拟人物图像至图像编码器,得到目标外观描述;虚拟人物视频生成模型的图像去噪模型根据目标外观描述和目标三维数据,为噪声图像降噪,得到目标虚拟人物视频。

    一种基于换脸的合成人脸修复方法、介质和电子设备

    公开(公告)号:CN116523806A

    公开(公告)日:2023-08-01

    申请号:CN202310208841.0

    申请日:2023-03-06

    Abstract: 本发明提供了一种基于换脸的合成人脸修复方法、介质和电子设备,其中,合成人脸修复模型的构建方法包括:利用合成人脸图像集训练第一自编码器进行人脸图像重构,得到经训练的第一自编码器,其中,第一自编码器包括编码器和解码器,合成人脸图像集包括目标人物说话状态的合成人脸图像;利用源人脸图像集训练第二自编码器进行人脸图像重构,得到经训练的第二自编码器,其中,第二自编码器包括编码器和解码器,源人脸图像集包括目标人物正常说话状态的人脸图像;构建用于对人脸图像进行修复的人脸修复模型,其由经训练的第一自编码器的编码器以及经训练的第二自编码器的解码器构成;以得到能够对合成人脸进行高效、高质量修复的人脸修复模型。

    基于上下文信息指导的场景分割方法和系统

    公开(公告)号:CN109657538B

    公开(公告)日:2021-04-27

    申请号:CN201811309249.5

    申请日:2018-11-05

    Abstract: 本发明涉及一种基于上下文信息指导的场景分割方法,包括:以残差结构网络构建基于上下文信息的指导模块;以原始图像为输入,通过多个3×3卷积层输出初级特征图;以该初级特征图为输入,通过多个该指导模块输出中级特征图;以该中级特征图为输入,通过多个该指导模块输出高级特征图;以该高级特征图为输入,通过场景分割子网络,获得该原始图像的场景分割结果。本发明设计的分割网络的参数量小,并且在特征提取时,利用全局特征提取器进一步去修正局部特征和对应的周围上下文特征组合成的联合特征,这使得模型更有利于去学习分割的特征,极大的提高了现有移动端场景分割网络的性能。

    一种生成描述图像内容的自然语言的方法与系统

    公开(公告)号:CN107918782B

    公开(公告)日:2020-01-21

    申请号:CN201711265210.3

    申请日:2017-12-05

    Abstract: 本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法,以及采用所述模型生成描述图像内容的自然语言的方法。其中,所述训练方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。

    融合全局信息的场景分割修正方法与系统

    公开(公告)号:CN107564007A

    公开(公告)日:2018-01-09

    申请号:CN201710650525.3

    申请日:2017-08-02

    Inventor: 唐胜 张蕊 李锦涛

    Abstract: 本发明涉及一种场景分割修正方法,通过全局残差修正网络,以完全残差卷积网络作为前端模型,将该前端模型的置信度图和原始图像按通道拼接起来,作为该全局残差修正网络的输入,从而输出全局修正残差,将该全局修正残差与该置信度图相加,得到场景分割的修正结果;使用已知的场景分割数据集对该全局残差修正网络进行训练;使用已知的场景分割数据集对该全局残差修正网络进行训练。同时本发明还提出了将该全局残差修正网络和局部边界修正网络串联起来,形成级联的框架,该级联的框架可以对前端模型的分割结果进行全局修正和局部修正,从而得到更加精确的场景分割结果。

    一种视频字幕信息提取方法

    公开(公告)号:CN101453575B

    公开(公告)日:2010-07-21

    申请号:CN200710178831.8

    申请日:2007-12-05

    Abstract: 本发明提供一种视频字幕信息提取方法,包括:对需要提取字幕的视频图像进行预处理;对预处理后的视频图像进行多尺度的字幕区域检测,得到代表字幕区域大小与位置的矩形块;利用所述的矩形块,对检测到的字幕区域进行分割;对分割得到的字幕区域增强对比度;采用K均值聚类的方法实现对字幕的提取。本发明对字幕的不同语言类型、字体、尺寸以及视频节目类型都具有通用性;具有字幕区域检测和文字识别准确率高,速度快的优点;在字幕区域检测时不需要进行模型的训练,减少了模型训练不好影响预测结果的可能性。

    一种视频字幕信息提取方法

    公开(公告)号:CN101453575A

    公开(公告)日:2009-06-10

    申请号:CN200710178831.8

    申请日:2007-12-05

    Abstract: 本发明提供一种视频字幕信息提取方法,包括:对需要提取字幕的视频图像进行预处理;对预处理后的视频图像进行多尺度的字幕区域检测,得到代表字幕区域大小与位置的矩形块;利用所述的矩形块,对检测到的字幕区域进行分割;对分割得到的字幕区域增强对比度;采用K均值聚类的方法实现对字幕的提取。本发明对字幕的不同语言类型、字体、尺寸以及视频节目类型都具有通用性;具有字幕区域检测和文字识别准确率高,速度快的优点;在字幕区域检测时不需要进行模型的训练,减少了模型训练不好影响预测结果的可能性。

    一种数字图像哈希签名方法

    公开(公告)号:CN100361437C

    公开(公告)日:2008-01-09

    申请号:CN200510077454.X

    申请日:2005-06-23

    Abstract: 本发明公开的数字图像哈希签名方法,由数字签名的生成、数字签名匹配和篡改定位组成,数字签名生成包括:1)求DCT系数;2)量化DCT低频系数,得到DCT数据矩阵;3)对DCT数据矩阵做标准化和主成分分析,得到特征向量矩阵和特征向量值;4)量化特征向量矩阵和特征值向量,生成签名;数字签名匹配包括:5)反量化特征向量矩阵;6)计算相似度;7)将相似度与阈值做比较,由比较结果决定是否匹配;篡改定位包括:8)求待检验图像的新坐标矩阵;9)估算原始图像的新坐标矩阵;10)计算待检验图像与原始图像对应块的差值向量矩阵;11)用待检图像的特征值向量,计算HTS向量;12)确定篡改块的位置。

Patent Agency Ranking