视频信息的处理方法、装置、电子设备和介质

    公开(公告)号:CN114494935A

    公开(公告)日:2022-05-13

    申请号:CN202111539627.0

    申请日:2021-12-15

    Abstract: 本公开提供了一种视频信息的处理方法、一种用于鉴别伪造图像的神经网络模型的训练方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于人脸识别、人脸检测等场景。实现方案为:对包括第一视频帧序列的待检测视频进行采样,以获取包括多个视频帧的第二视频帧序列;确定第二视频帧序列中的伪造视频帧;以及响应于确定第二视频帧序列中的第一视频帧为伪造视频帧,基于第一视频帧以及在第二视频帧序列中与第一视频帧相邻的第二视频帧,在第一视频帧序列中确定待检测视频中的伪造片段。

    一种模型训练方法、装置、设备以及存储介质

    公开(公告)号:CN114494776A

    公开(公告)日:2022-05-13

    申请号:CN202210082301.8

    申请日:2022-01-24

    Inventor: 杨馥魁 韩钧宇

    Abstract: 本公开提供了一种模型训练方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于图像处理、图像检测等场景领域。具体实现方案为:将样本图像输入至特征提取网络,得到所述特征提取网络对应的样本特征图;其中,所述特征提取网络包括老师特征提取网络和学生特征提取网络;根据不同特征提取网络对应的样本特征图中至少两个目标对象之间的类别关系,确定第一蒸馏损失;根据所述第一蒸馏损失,对所述学生特征提取网络进行训练。能够提高对学生特征提取网络训练的精准性。

    用于图像处理的模型训练方法及装置

    公开(公告)号:CN114445647A

    公开(公告)日:2022-05-06

    申请号:CN202210112303.7

    申请日:2022-01-29

    Inventor: 王健 韩钧宇

    Abstract: 本公开提供了一种用于图像处理的模型训练方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于图像处理、图像检测、图像对比等场景。具体实现方案为:根据训练完成的第一模型对第一数据集进行处理,得到第一数据集中的多张图像所对应的第一相似度矩阵。根据待训练的第二模型对第一数据集进行处理,得到第一数据集中的多张图像所对应的第二相似度矩阵,其中,第一模型用于供第二模型进行学习。根据第一相似度矩阵和第二相似度矩阵,更新第二模型的模型参数。本公开的技术方案可以有效提升第一模型的输出结果的正确性。

    文本识别模型的训练方法、文本识别方法及装置

    公开(公告)号:CN114372477A

    公开(公告)日:2022-04-19

    申请号:CN202210275278.4

    申请日:2022-03-21

    Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。

    一种文本识别方法、装置、设备及存储介质

    公开(公告)号:CN114359903A

    公开(公告)日:2022-04-15

    申请号:CN202210013633.0

    申请日:2022-01-06

    Abstract: 本公开提供了一种文本识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获得待识别文本图像的第一特征图;针对每一目标特征单元,基于该目标特征单元中的各个特征值,对该目标特征单元中的每一特征值进行特征增强处理,其中,目标特征单元为:第一特征图中沿特征增强方向的特征单元;基于增强处理后的第一特征图,对待识别文本图像进行文本识别。应用本公开实施例提供的文本识别方案,能够实现文本识别。

    一种视频拼接方法、装置、电子设备及存储介质

    公开(公告)号:CN114125324A

    公开(公告)日:2022-03-01

    申请号:CN202111315996.1

    申请日:2021-11-08

    Abstract: 本公开提供了一种视频拼接方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习和计算机视觉技术领域。具体实现方案为:在第一视频的最后一个图像帧和第二个视频的第一个图像帧之间插入一个中间帧;在第一视频和第二视频中分别按照从后向前的顺序和从前向后的顺序依次选取L个图像帧;其中,L为大于1的自然数;基于中间帧以及第一视频中的L个图像帧和第二视频中的L个图像帧,将第一视频和第二视频拼接为目标视频。本申请实施例可以实现视频之间的平滑过渡,能够极大地降低视频拼接难度,同时还可以提高拼接速度,降低成本。

    图像生成模型的训练方法、图像生成方法、装置和设备

    公开(公告)号:CN114066790A

    公开(公告)日:2022-02-18

    申请号:CN202111327211.2

    申请日:2021-11-10

    Abstract: 本公开提供了图像生成模型的训练方法、图像生成方法、装置和设备,涉及人工智能技术领域,具体为深度学习或计算机视觉技术领域,可应用于人脸图像处理或人脸图像识别等场景下。具体实现方案为:获取目标人物的第一图像、所述第一图像中第一面部区域图像、第二图像和所述第二图像中第二面部区域图像;将所述第一图像、所述第一面部区域图像、所述第二图像和所述第二面部区域图像输入至图像生成模型,得到合成图像;通过将所述第一图像、所述第二图像和所述合成图像输入至预先训练的损失计算模型中,计算目标损失,并根据所述目标损失调整所述图像生成模型的参数。本公开实施例可以提高图像生成模型的准确率。

    用于生成视频的方法和装置

    公开(公告)号:CN110446066B

    公开(公告)日:2021-11-19

    申请号:CN201910802155.X

    申请日:2019-08-28

    Abstract: 本公开的实施例公开了用于生成视频的方法和装置。该方法的一具体实施方式包括:获取上一帧图像和用于生成当前帧图像的底板;确定与待输出语音信息对应的当前音素,基于当前帧图像的底板,从预设的嘴形库中获取与当前音素对应的至少两个嘴形图像,其中,嘴形库包括从视频的连续图像中得到的多张底板和与底板对应的不同音素的嘴形图像;从所获取的至少两个嘴形图像中确定出与上一帧图像中的嘴形图像相匹配的嘴形图像;将所确定出的嘴形图像插入当前帧图像的底板,生成当前帧图像。该实施方式通过将相邻帧图像的嘴形相匹配,从而保证了相邻帧图像的中人像嘴形的连贯性,提高了生成的视频的质量。

Patent Agency Ranking