一种带噪多模态开放词汇视觉样本分类方法及系统

    公开(公告)号:CN118656507A

    公开(公告)日:2024-09-17

    申请号:CN202410813965.6

    申请日:2024-06-24

    Abstract: 本发明提供带噪多模态开放词汇视觉样本分类方法及系统,包括:将视觉样本编码为信息特征;将带噪文本信息编码为信息特征;根据视觉特征与带噪文本特征对视觉样本进行分类;基于预设词库,提出带噪文本的候选文本;根据候选文本与带噪文本的相似度计算单模态权重;根据候选文本特征与带噪文本对应视觉样本信息特征的相似度计算跨模态权重,获得最终权重;根据最终权重选出最优候选文本,并作为新的带噪文本,反复迭代直至收敛。本发明能够增强多模态视觉样本分类方法在噪声环境下的鲁棒性:通过单模态和跨模态信息优势互补,准确地筛选出候选去噪文本;通过反复迭代,优化去噪文本筛选的准确性,实现更精确的带噪多模态开放词汇视觉样本分类。

    人脸图像盲修复方法、系统、终端和介质

    公开(公告)号:CN118644422A

    公开(公告)日:2024-09-13

    申请号:CN202310231366.9

    申请日:2023-03-10

    Abstract: 本发明提供一种人脸图像盲修复方法、系统、终端和介质,包括:获取待修复人脸图像,所述待修复人脸图像为遭受未知退化的低质量图像;使用预训练的扩散模型,将所述低质量图像转化为平滑的、干净的中间结果,实现对于所述低质量图像中退化的去除,其中,所述预训练的扩散模型具有由随机噪声生成人脸图像的功能;将所述中间结果映射为高质量图像,完成人脸图像修复。本发明是一种鲁棒的人脸图像盲修复方法,能够应对输入图像的各种退化,无需构造数据集来模拟现实场景中的退化,能够适用于真实图像中的未知退化,改善了现有技术需要构造模拟退化训练集,不贴合实际使用场景的问题。

    基于可学习字典的人脸五官超分辨率方法和系统、介质

    公开(公告)号:CN113628109B

    公开(公告)日:2023-11-28

    申请号:CN202110804781.X

    申请日:2021-07-16

    Abstract: 本发明公开了一种基于可学习字典的人脸五官超分辨率方法和系统、介质,所述方法包括:根据高清五官图片所对应的低清五官图片构建可学习的字典,字典词条对应高清五官图片中的低频部分;根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条对应高清五官图片中的高频部分;根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片。所述系统包括与所述各步骤相对应的模块。本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强,达到良好的超分辨效果。

    一种人脸图像修复方法及系统
    25.
    发明公开

    公开(公告)号:CN114219728A

    公开(公告)日:2022-03-22

    申请号:CN202111496917.1

    申请日:2021-12-09

    Abstract: 本发明提供一种人脸图像修复方法,包括:对输入的高质量人脸图像利用高质量特征提取网络获取其在特征空间中的高质量表达;对输入的低质量人脸图像利用低质量特征提取网络获取其在特征空间中的低质量表达;使用跨质量转移估计网络估计特征空间中的高质量表达与低质量表达之间的转移向量,并使用所述转移向量编辑表达;使用预训练的图像恢复网络将编辑后的表达映射输出图像;在整个网络的联合损失约束下进行训练;使用训练好的网络进行人类图像修复。本发明无需成对的训练图像对,能够适用于真实图像中的未知退化,改善了现有技术需要成对的训练图像对,不贴合实际使用场景的问题。

    渐进式特权信息蒸馏的在线动作检测方法和系统

    公开(公告)号:CN114120189A

    公开(公告)日:2022-03-01

    申请号:CN202111388139.4

    申请日:2021-11-22

    Abstract: 本发明提供了一种渐进式特权信息蒸馏的在线动作检测方法及系统,包括:步骤S1:对未经裁剪的视频使用视频特征提取网络进行特征提取,得到能够表达视频语义信息的视频特征序列;步骤S2:截取当前时刻之后不同时长的视频,并利用相应的视频特征序列分别对多个不同的离线教师模型进行训练;步骤S3:利用提取的视频特征序列对在线学生模型进行训练,得到训练后的在线学生模型;步骤S4:将离线教师模型和在线学生模型在模型层面的不同层次间进行特征对齐;步骤S5:特征对齐后,在线学生模型通过渐进式模型蒸馏的方式向多个不同的离线教师模型学习;步骤S6:利用提取的视频特征序列根据蒸馏学习后的的在线学生模型预测当前时刻动作检测的结果。

    一种单帧监督视频时序动作检测与分类方法及系统

    公开(公告)号:CN113936174A

    公开(公告)日:2022-01-14

    申请号:CN202111190861.7

    申请日:2021-10-13

    Abstract: 本发明提供了一种单帧监督视频时序动作检测与分类方法及系统,包括:根据输入长视频提取视频特征图;将视频特征图映射为动作种子帧概率图;产生动作种子帧位置;根据动作种子帧位置将输入长视频划分为若干个单实例视频片段;将单实例视频片段特征映射为动作位置提案;将动作位置提案映射为时序位置掩膜;基于时序位置掩膜获取单实例视频片段中的动作特征、背景特征;将动作特征、背景特征映射为动作类别概率、背景类别概率;基于动作位置提案、动作类别概率产生视频的检测与分类结果。本发明采用分而治之的策略将单帧监督时序动作检测与分类任务化繁为简,实现更完整、更精确的时序动作检测与分类。

    自监督模型预训练方法、系统及介质

    公开(公告)号:CN112651916A

    公开(公告)日:2021-04-13

    申请号:CN202011567684.5

    申请日:2020-12-25

    Abstract: 本发明提供了一种自监督模型预训练方法、系统及介质,包括:对不同模态图像使用归一化方法进行预处理;对归一化图像使用非线性变换、局部扰动、内部填充和外部填充得到变换后的图像;对变换后的图像使用深度卷积神经网络提取图像的模态不变图像特征;对变换后的图像,使用密集连接模态判别网络提取图像特征,与模态不变图像特征进行对抗学习;对模态不变图像特征,使用多层次特征学习网络进行尺度预测;对模态不变特征图像特征使用图像恢复网络得到恢复图像;根据恢复图像和归一化图像实现自监督学习。本发明对不同模态图像提取模态不变的且有较强多层次判别力的特征,通过有效的自监督学习,提高了预训练模型的泛化能力,实现良好的通用性。

    基于深度学习的感兴趣区域图像编码、解码系统及方法

    公开(公告)号:CN109889839B

    公开(公告)日:2020-11-20

    申请号:CN201910240106.1

    申请日:2019-03-27

    Abstract: 本发明公开了一种基于深度学习的感兴趣区域图像编码系统及方法,包括感兴趣区域编码网络模块、码率分配模块和熵编码模块。图像输入系统后,感兴趣区域编码网络模块同时对输入图像进行正向多尺度分解变换以及感兴趣区域分割预测,得到图像的多尺度特征和感兴趣区域掩模,再经过码率分配模块为感兴趣区域分配更多的特征,分配后的特征经过量化和熵编码得到二进制码流;同时提供了一种感兴趣区域图像解码系统及方法,用于解码上述编码系统及方法形成的编码。本发明使用深度学习技术构建感兴趣区域编解码网络和熵编解码器,利用大量数据训练得到最优模型参数,在实际应用中可达到显著优于现有感兴趣编码系统的主观和客观的编码性能。

    一种基于编码单元层次的HEVC复杂度控制方法

    公开(公告)号:CN106231300B

    公开(公告)日:2020-06-12

    申请号:CN201610585079.8

    申请日:2016-07-22

    Abstract: 本发明提供一种基于编码单元层次的HEVC复杂度控制方法,包括以下步骤:用户设定视频编码目标复杂度系数,正常编码并统计第一个GOP中的各个编码单元层次的复杂度和一个GOP的总的复杂度,计算出各个编码单元层次的复杂度的比值,并通过不同的编码单元层次组合得到不同的门限值;把目标复杂度平均分配到待编码GOP内的每一帧,把复杂度平均分配给剩下的编码树单元,每个编码树单元根据分配到的复杂度选择编码单元层次的组合,编码完成后更新剩余的复杂度。本发明能够在GOP级别在一定范围内实现复杂度的控制,在每一帧编码复杂度的控制上更为准确,波动更小。

Patent Agency Ranking