一种利用门控融合判别特征进行漫画人脸识别的方法

    公开(公告)号:CN111079549B

    公开(公告)日:2023-09-22

    申请号:CN201911157921.8

    申请日:2019-11-22

    Inventor: 俞俊 高飞 戴玲娜

    Abstract: 本发明公开了一种利用门控融合判别特征进行漫画人脸识别的方法。本发明步骤如下:(1)数据预处理:全局模型部分将图片根据5个关键点进行放射变化并裁减到统一尺寸。局部模型部分需将图片根据17个关键点所在位置按比例裁剪并缩放。(2)特征提取及融合:对于全局及局部模型分别利用一个嵌入了CBAM注意力机制模型并Sphereface上预训练好的20层模型以及嵌入CBAM轻量级Sphereface网络进行特征提取;将17个局部特征与全局特征进行融合。(3)识别准确度:将融合后的漫画及人脸照片的特征计算余弦距离。本发明提出一种跨模态漫画人脸识别的模型,特别是提出了利用门控融合的方式对特征进行整合,并且获得了目前漫画人脸识别中的最好效果。

    基于概念解析器和多模态图学习的视频内容描述方法

    公开(公告)号:CN116245115A

    公开(公告)日:2023-06-09

    申请号:CN202310255930.0

    申请日:2023-03-16

    Abstract: 本发明公开了一种基于概念解析器和多模态图学习的视频内容描述方法,它同时考虑了低级视觉信息和高级概念线索,并以端到端的方式有效地整合了它们。具体来说,低级视觉信息和高级概念线索是分别从VideoSwinTransformer和概念解析器中获得的,并引入概念损失来规范概念解析器的学习过程以生成真实的概念结果。为了融合多级特征,本方法引入了CaptionTransformer,其将视觉信息和概念线索作为输入,通过多模态图学习来处理这些输入信息。多模态图会以显式方式对多级特征,包括本文特征、视觉特征、概念特征之间的关系进行建模,并且会进一步细化它们的重要程度。

    一种用于美学质量评价的构图表征学习方法

    公开(公告)号:CN111507941B

    公开(公告)日:2023-06-02

    申请号:CN202010214893.5

    申请日:2020-03-24

    Inventor: 俞俊 高飞 尚梅梅

    Abstract: 本发明公开了一种用于美学质量评价的构图表征学习方法。本发明步骤如下:步骤(1)数据预处理,将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小;步骤(2)特征提取及全连接图构建,分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络,分别用来提取全局特征和构图特征;利用提取出来的构图特征构建全连接图;步骤(3)全局特征与构图特征相融合,将提取出来的全局特征与构图特征输入门控单元进行特征融合,获取融合特征;步骤(4)美学分数预测以及准确率度量。本发明提出了利用构图特征构建全连接图并与全局特征融合,而且获得了目前图片美学质量评价中的最好效果。

    一种基于特征交互和分数集成的CTR推荐方法

    公开(公告)号:CN115795153A

    公开(公告)日:2023-03-14

    申请号:CN202211503601.5

    申请日:2022-11-28

    Abstract: 本发明公开了一种基于特征交互和分数集成的CTR推荐方法。本发明步骤如下:1、将所有特征分为4类:Q_U_I特征、用户行为特征、域相关特征和域ID特征;2、使用场景交互细化模块,对Q_U_I特征和域相关特征进行交互得到组合特征。将组合特征与用户历史行为特征、Q_U_I特征和域相关特征拼接起来,最终得到backbone的输入特征;3、使用专家投影模块提取差异化的公共特征;4、使用门控机制对公共特征和特定特征进行加权和,得到各视图的高级融合特征。然后输入到对应的MLP中得出各视图的分数,再使用门控机制集成分数,经过激活函数sigmoid,得到最终预测结果;5、使用损失函数进行优化。本发明能够捕获特征空间和标签空间中固有的相关性信息,提高多域CTR预测的正确率。

    一种自适应肤色的跨域自拍人脸痘痘分级的图像分类方法

    公开(公告)号:CN115035068A

    公开(公告)日:2022-09-09

    申请号:CN202210680710.8

    申请日:2022-06-15

    Inventor: 谭敏 王瑞瑞 俞俊

    Abstract: 本发明提出了一种自适应肤色的跨域自拍人脸痘痘分级的图像分类方法。本发明的步骤如下:1、在源域和目标域之间,利用对抗生成网络模型进行跨域数据增强来缩小域偏移。2、构建两个门控网络自适应学习最佳样本权重。其中构建一个专家门控网络自适应学习最优特征权重,一个肤色门控网络自适应学习最优肤色权重。3、在源域和目标域之间,利用多核的最大化均值差异方法对样本特征进行对齐,目的是缩小源域与目标域之间的域偏差。4、根据上述步骤建立多任务端到端的深度学习模型,在特定数据集上训练整个网络,将最终模型在测试集上测试性能。本发明能针对特定数据集自适应学习最合适的样本权重分配,具有很强的现实性和普适性。

    一种文段问答框架下跨模态的时域视频定位方法

    公开(公告)号:CN114925232A

    公开(公告)日:2022-08-19

    申请号:CN202210606624.2

    申请日:2022-05-31

    Inventor: 俞俊 郭宇轩 彭玺

    Abstract: 本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局‑局部的跨模态融合,得到融合特征。其次,将融合特征视为文段问答框架中的文章,引入上下文‑查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。本发明通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。

    一种基于跨模态预训练特征增强的视觉问答方法

    公开(公告)号:CN114663677A

    公开(公告)日:2022-06-24

    申请号:CN202210368717.6

    申请日:2022-04-08

    Inventor: 俞俊 高鹏昺 余宙

    Abstract: 本发明公开了一种基于跨模态预训练特征增强的视觉问答方法。本发明建模相对空间关系特征,利用语义对齐的局部/全局视觉特征和语言特征,结合特征增强模块以及深度堆叠的语言侧SA模块、视觉侧RGA模块来获得更加丰富的复合语义信息,最后通过局部/全局特征融合模块输出综合特征进而用于预测答案。该方法在视觉问答任务上取得了显著性的提升效果,超越了众多使用传统物体特征或网格特征作为视觉特征的方法,甚至优于许多使用视觉‑语言“预训练‑微调”范式的模型。

Patent Agency Ranking