-
公开(公告)号:CN111079549B
公开(公告)日:2023-09-22
申请号:CN201911157921.8
申请日:2019-11-22
Applicant: 杭州电子科技大学
IPC: G06V40/16 , G06V10/80 , G06V10/74 , G06V10/771
Abstract: 本发明公开了一种利用门控融合判别特征进行漫画人脸识别的方法。本发明步骤如下:(1)数据预处理:全局模型部分将图片根据5个关键点进行放射变化并裁减到统一尺寸。局部模型部分需将图片根据17个关键点所在位置按比例裁剪并缩放。(2)特征提取及融合:对于全局及局部模型分别利用一个嵌入了CBAM注意力机制模型并Sphereface上预训练好的20层模型以及嵌入CBAM轻量级Sphereface网络进行特征提取;将17个局部特征与全局特征进行融合。(3)识别准确度:将融合后的漫画及人脸照片的特征计算余弦距离。本发明提出一种跨模态漫画人脸识别的模型,特别是提出了利用门控融合的方式对特征进行整合,并且获得了目前漫画人脸识别中的最好效果。
-
公开(公告)号:CN116245115A
公开(公告)日:2023-06-09
申请号:CN202310255930.0
申请日:2023-03-16
Applicant: 杭州电子科技大学
IPC: G06F40/35 , H04N21/84 , G06F40/205 , G06V20/40 , G06N3/0455 , G06V10/778 , G06V10/80 , G06N3/042 , G06N3/084
Abstract: 本发明公开了一种基于概念解析器和多模态图学习的视频内容描述方法,它同时考虑了低级视觉信息和高级概念线索,并以端到端的方式有效地整合了它们。具体来说,低级视觉信息和高级概念线索是分别从VideoSwinTransformer和概念解析器中获得的,并引入概念损失来规范概念解析器的学习过程以生成真实的概念结果。为了融合多级特征,本方法引入了CaptionTransformer,其将视觉信息和概念线索作为输入,通过多模态图学习来处理这些输入信息。多模态图会以显式方式对多级特征,包括本文特征、视觉特征、概念特征之间的关系进行建模,并且会进一步细化它们的重要程度。
-
公开(公告)号:CN111507941B
公开(公告)日:2023-06-02
申请号:CN202010214893.5
申请日:2020-03-24
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种用于美学质量评价的构图表征学习方法。本发明步骤如下:步骤(1)数据预处理,将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小;步骤(2)特征提取及全连接图构建,分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络,分别用来提取全局特征和构图特征;利用提取出来的构图特征构建全连接图;步骤(3)全局特征与构图特征相融合,将提取出来的全局特征与构图特征输入门控单元进行特征融合,获取融合特征;步骤(4)美学分数预测以及准确率度量。本发明提出了利用构图特征构建全连接图并与全局特征融合,而且获得了目前图片美学质量评价中的最好效果。
-
公开(公告)号:CN116110109A
公开(公告)日:2023-05-12
申请号:CN202310218956.8
申请日:2023-03-08
Applicant: 杭州电子科技大学
IPC: G06V40/16 , G06V10/26 , G06N3/0464 , G06N3/084 , G06N3/08 , G06V10/82 , G06V10/764 , G06F21/62
Abstract: 本发明公开了一种基于身份去激活的结构自适应人脸身份信息保护方法,包括如下步骤:步骤1:数据预处理;步骤2:身份信息反激活;步骤3:结构信息去识别;步骤4:构建匿名人脸生成对抗网络结构;步骤5:使用公开数据集进行训练及测试,输出最终结果。该方法可以使用户能够产生可理解的匿名人脸图像,这不仅可以欺骗不知道的观察者,而且还可以很好地保存数据的可用性。
-
公开(公告)号:CN115908625A
公开(公告)日:2023-04-04
申请号:CN202211410678.8
申请日:2022-11-11
Applicant: 杭州电子科技大学
IPC: G06T11/20 , G06T11/00 , G06V10/26 , G06V10/40 , G06V10/762 , G06V10/82 , G06V40/16 , G06F21/32 , G06F21/46 , G06N3/0475 , G06N3/084 , G06N3/094 , G06N3/0464
Abstract: 本发明公开了一种预防身份泄露的循环可逆匿名人脸合成方法,包括如下:步骤1、数据集预处理;步骤2:构建身份修改网络,并通过身份修改模型得到修改后的身份特征;步骤3:构建属性控制网络,并通过属性控制模型得到属性可控的初始匿名图;步骤4:构建特征隐写网络,并通过特征隐写模型得到隐写的特征;步骤5:使用公开数据集进行训练及测试;步骤6:使用训练好的模型完成图像匿名及恢复。该方法的优点在于对待匿名图像的人脸区域进行替换同时不会侵犯他人隐私,并且生成的匿名图像可以实现可逆以此来恢复出原始图像,同时匿名图像在视觉上更友好。
-
公开(公告)号:CN115795153A
公开(公告)日:2023-03-14
申请号:CN202211503601.5
申请日:2022-11-28
Applicant: 杭州电子科技大学
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明公开了一种基于特征交互和分数集成的CTR推荐方法。本发明步骤如下:1、将所有特征分为4类:Q_U_I特征、用户行为特征、域相关特征和域ID特征;2、使用场景交互细化模块,对Q_U_I特征和域相关特征进行交互得到组合特征。将组合特征与用户历史行为特征、Q_U_I特征和域相关特征拼接起来,最终得到backbone的输入特征;3、使用专家投影模块提取差异化的公共特征;4、使用门控机制对公共特征和特定特征进行加权和,得到各视图的高级融合特征。然后输入到对应的MLP中得出各视图的分数,再使用门控机制集成分数,经过激活函数sigmoid,得到最终预测结果;5、使用损失函数进行优化。本发明能够捕获特征空间和标签空间中固有的相关性信息,提高多域CTR预测的正确率。
-
公开(公告)号:CN115205760A
公开(公告)日:2022-10-18
申请号:CN202210966913.3
申请日:2022-08-11
Applicant: 杭州电子科技大学 , 中国电子科技集团公司电子科学研究院
IPC: G06V20/40 , G06V10/82 , G06V10/774 , G06N3/08 , G06N3/04 , G06F40/289
Abstract: 本发明提出一种基于深度局部自注意力网络的视频密集描述生成方法。本发明步骤如下:1、数据集预处理以及数据集的划分,使用训练好的行为识别网络对视频提取特征;2、构建视频结构化密集描述的序列,并构建该序列的文本特征;3、构建序列到序列建模的深度局部自注意力网络;4、通过反向传播算法对步骤(3)中的网络参数进行训练,直至整个网络模型收敛。本发明同时将密集视频描述中的事件定位与事件描述两个子任务联合建模为一个序列生成任务,将两个独立的子任务紧密联系在一起,起到相互促进的作用,相比于大部分两阶段方法模型没有过多的超参数需要手工调整,训练模型更加方便,性能有了进一步提升。
-
公开(公告)号:CN115035068A
公开(公告)日:2022-09-09
申请号:CN202210680710.8
申请日:2022-06-15
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06T7/90 , G06V40/16 , G06V10/56 , G06V10/764 , G06V10/82 , G06V10/774 , G06V10/776 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种自适应肤色的跨域自拍人脸痘痘分级的图像分类方法。本发明的步骤如下:1、在源域和目标域之间,利用对抗生成网络模型进行跨域数据增强来缩小域偏移。2、构建两个门控网络自适应学习最佳样本权重。其中构建一个专家门控网络自适应学习最优特征权重,一个肤色门控网络自适应学习最优肤色权重。3、在源域和目标域之间,利用多核的最大化均值差异方法对样本特征进行对齐,目的是缩小源域与目标域之间的域偏差。4、根据上述步骤建立多任务端到端的深度学习模型,在特定数据集上训练整个网络,将最终模型在测试集上测试性能。本发明能针对特定数据集自适应学习最合适的样本权重分配,具有很强的现实性和普适性。
-
公开(公告)号:CN114925232A
公开(公告)日:2022-08-19
申请号:CN202210606624.2
申请日:2022-05-31
IPC: G06F16/732 , G06F16/78 , G06F16/783 , G06F40/211 , G06F40/30 , G06N3/04 , G06N3/08 , G06V10/80 , G06V10/82
Abstract: 本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先,把文本数据和视频数据的特征送入相同的编码器进行初步提取,并映射至相同维度。再对文本特征进行自动分割,将一些较长的句子分割为语义完整的短句,使之能与视觉特征进行更充分的融合。然后,将分割后的句子特征与视觉特征进行基于注意力机制的全局‑局部的跨模态融合,得到融合特征。其次,将融合特征视为文段问答框架中的文章,引入上下文‑查询注意力机制再次进行特征融合。最后,将最终的特征送入条件文段预测器中得到匹配的时间片段。本发明通过优化参数设置,利用适当的训练技巧,实现了更高准确率的时域视频定位方法。
-
公开(公告)号:CN114663677A
公开(公告)日:2022-06-24
申请号:CN202210368717.6
申请日:2022-04-08
Applicant: 杭州电子科技大学
IPC: G06V10/44 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06F16/9032 , G06F16/9035
Abstract: 本发明公开了一种基于跨模态预训练特征增强的视觉问答方法。本发明建模相对空间关系特征,利用语义对齐的局部/全局视觉特征和语言特征,结合特征增强模块以及深度堆叠的语言侧SA模块、视觉侧RGA模块来获得更加丰富的复合语义信息,最后通过局部/全局特征融合模块输出综合特征进而用于预测答案。该方法在视觉问答任务上取得了显著性的提升效果,超越了众多使用传统物体特征或网格特征作为视觉特征的方法,甚至优于许多使用视觉‑语言“预训练‑微调”范式的模型。
-
-
-
-
-
-
-
-
-