-
公开(公告)号:CN117115706A
公开(公告)日:2023-11-24
申请号:CN202311048203.3
申请日:2023-08-21
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/774 , G06V10/25 , G06V10/764 , G06V20/70 , G06V10/52 , G06V10/62 , G06V10/82 , G06N3/084 , G06N3/0455
Abstract: 本发明公开了一种基于多尺度时空注意力网络的视频动态场景图生成方法。本发明步骤如下:1、数据集的划分,2、使用预训练好的目标检测网络对视频帧提取特征,并进行目标分类,3、构建目标的语言特征,4、构建人物关系对的综合特征,并存储为稀疏矩阵,5、构建多尺度时空注意力网络,6、构建预训练模型增强的分类网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明提出了一种多尺度时空注意力网络,创新性地在经典的Transformer架构基础上引入了“多尺度”建模思想,以实现对视频动态细粒度语义的精确建模。
-
公开(公告)号:CN116682145A
公开(公告)日:2023-09-01
申请号:CN202310734032.3
申请日:2023-06-20
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于VisionTransformer注意力筛选的行人重识别方法。通过根据注意力响应值获取被重点关注的行人特征,帮助模型训练和识别。本发明包含以下步骤:1、获取具有行人身份标签的行人图像,对图像进行图像增强操作,并对图像统一处理以保证模型能够接收图像集的输入;2、构建基于Vision Transformer的全局‑局部特征抽取的行人重识别模型;3、训练行人重识别模型,直到模型收敛;4、针对训练好的模型使用测试集评估模型泛化性能。本发明使用的注意力筛选相比于对特征进行随机打乱,能够更好地帮助模型训练,提升模型的辨别能力,同时减少干扰特征对模型识别的影响,提升了模型的鲁棒性。
-
公开(公告)号:CN116610778A
公开(公告)日:2023-08-18
申请号:CN202310321013.8
申请日:2023-03-29
Applicant: 杭州电子科技大学 , 杭州臾宇智能科技有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/532 , G06F16/583 , G06V10/44 , G06V10/82 , G06F40/30 , G06N3/0442
Abstract: 本发明公开了基于跨模态全局与局部注意力机制的双向图文匹配方法,首先进行数据集获取,然后进行特征提取,构建基于全局门控自注意力机制(GSA)和局部跨模态注意力机制(CAU)的图文匹配模型;确定图文匹配模型的损失函数,最后进行网络训练与测试。本发明同时使用全局和局部对齐,局部对齐可以捕获细粒度的对应关系,全局对齐可以获得更高层次的语义信息,两者结合考虑图文的对应关系,提高了匹配的精度。
-
公开(公告)号:CN116228639A
公开(公告)日:2023-06-06
申请号:CN202211597481.X
申请日:2022-12-12
Applicant: 杭州电子科技大学 , 浙江省人民医院 , 杭州臾宇智能科技有限公司 , 绍兴微源生物医药科技有限公司
IPC: G06T7/00 , G06V10/26 , G06V10/764 , G06V10/82 , G06V20/70 , G06V10/778 , G06N3/096
Abstract: 本发明公开了一种基于半监督多级不确定性感知的口腔全景片龋齿分割方法。本发明通过学生老师模型进行迭代训练,从解码器的各层中提取不同尺度的特征图进行深监督,并采用高斯噪声扰动和蒙特卡罗方法生成不确定性掩码矩阵,利用不同层解码器的多级输出辅助不确定性掩码的生成。由于各层感受野的差异,本方法将不确定性掩码矩阵从二维空间扩展到三维,即同时利用噪声扰动、指数移动平均(EMA)和多级特征来丰富不确定性掩码的参考性,从而帮助模型区分口腔全景图中图像特征相似的伪影和龋齿,提高模型对各种规模龋齿的识别性能,以提高医疗辅助作用。
-
公开(公告)号:CN111242837B
公开(公告)日:2023-05-12
申请号:CN202010006768.5
申请日:2020-01-03
Applicant: 杭州电子科技大学
IPC: G06T3/00 , G06V10/74 , G06V10/82 , G06N3/048 , G06N3/084 , G06N3/0475 , G06N3/094 , G06N3/0455
Abstract: 本发明提供一种基于生成对抗网络的人脸匿名隐私保护方法。本发明首先对人脸图像数据预处理;然后构建生成对抗网络结构;再建立人脸区域匿名的目标函数;然后建立场景内容区域保留的目标函数;随后进行人脸匿名与场景保留的目标函数的结合;最后采用公开数据集进行训练及测试,输出最终结果。本方法对图像中人脸区域进行合成脸的替换而达到人脸匿名的效果,相对以往的马赛克遮挡的方法更高效并且在视觉上更友好。本发明方法具有高效性与实用性,对人物图像的隐私保护更高效和美观。
-
公开(公告)号:CN116091958A
公开(公告)日:2023-05-09
申请号:CN202211447652.0
申请日:2022-11-18
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于弱监督的跨模态视频时段检索方法。本发明引入了一个候选时段生成模块,该模块能够有效地利用视频的时间关系,并生成更准确的可变长度候选提案,并设计多任务损失,其中包括关键词重构损失、排序损失、精准选择损失,使其定位出更加精准的开始点和结束点。本发明采用端到端的方式,在两个基准数据集上的大量实验结果证明了该方法的有效性。本发明提出的精确选择损失使得模型优先考虑比较短的与目标时段相近的时段,改善了候选时段生成的方式,使得生成的候选时段最优解与真实时段的相似度达到99%。最后改进了重构损失的重构方式,降低重构的压力,同时排除非关键词减少杂质,从而提升模型的性能。
-
公开(公告)号:CN115331075A
公开(公告)日:2022-11-11
申请号:CN202210962059.3
申请日:2022-08-11
Applicant: 杭州电子科技大学 , 中国电子科技集团公司电子科学研究院
IPC: G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种多模态场景图知识增强的对抗式多模态预训练方法。本发明步骤:1、构建图像区域的特征表示及图像先验知识,2、构建文本及跨模态先验知识,3、构建多模态场景图,4、构建对抗式噪声生成网络与多模态预训练网络,5、多模态场景图知识增强的对抗式预训练。本发明通过从图像和文本两个模态中提取先验知识,以此构建多模态场景图,并构建以多模态场景图知识增强的多模态自注意力网络为核心的对抗噪声生成网络,为输入的图文对数据生成噪声扰动,与多模态预训练网络进行对抗式多模态预训练,最终在下游任务上得到了更好的性能表现。
-
公开(公告)号:CN112464016B
公开(公告)日:2022-04-01
申请号:CN202011500013.7
申请日:2020-12-17
Applicant: 杭州电子科技大学
IPC: G06F16/583 , G06F16/587 , G06V30/262 , G06N3/04 , G06N3/08 , G06F40/284
Abstract: 本发明公开了一种基于深度关系自注意力网络的场景图生成方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用预训练的目标检测网络对图像提取特征,3、构建目标的空间特征,4、构建目标的语言特征,5、构建相对关系特征,6、构建深度神经网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。
-
公开(公告)号:CN114036553A
公开(公告)日:2022-02-11
申请号:CN202111261508.3
申请日:2021-10-28
Applicant: 杭州电子科技大学
IPC: G06F21/62 , G06V40/10 , G06V20/52 , G06V10/762 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种结合k匿名的行人身份隐私保护方法。本发明通过交叉身份训练策略,生成更高质量的匿名图像;最后通过设计的k匿名隐私保护方法,保留行人图像数据隐私的同时也保留了数据的可用性;具体步骤:步骤1:代理数据集采集与图像预处理;步骤2:建立k匿名机制;步骤3:构建匿名行人生成对抗网络;步骤4:匿名行人生成目标函数;步骤5:采用公开数据集进行训练及测试,输出最终结果。本发明既保留了行人身份隐私又保留了属性。在匿名行人生成方面,一方面本方法结合了将属性以及目标背景融合到行人生成过程中,另一方面本方法提出交叉身份训练策略,提高了生成图像的质量。
-
公开(公告)号:CN113536916A
公开(公告)日:2021-10-22
申请号:CN202110647035.4
申请日:2021-06-10
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于骨骼信息的分组混淆图卷积动作识别方法。本发明采用了一种分组的思想,在进行空间操作的时候,我们对动态图进行分组来提取不同图结构的信息,获得丰富的行为信息。同时分组的形式还可以降低模型的参数量。然后在时序上进行操作的时候,采用深度可分离卷积的形式来降低参数和计算量。由于在空间和时序上都是采用分组的形式,所以需要对不同分组的信息进行融合,以达到信息的流通。结果显示本方法在保持高性能的情况下,参数量和计算量有着大幅的减小,证明了本方法有效性。
-
-
-
-
-
-
-
-
-