-
公开(公告)号:CN117830202A
公开(公告)日:2024-04-05
申请号:CN202310448413.5
申请日:2023-04-24
Applicant: 杭州电子科技大学 , 浙江省人民医院 , 杭州臾宇智能科技有限公司 , 绍兴微源生物医药科技有限公司
IPC: G06T7/00 , G06T7/11 , G06T5/70 , G06T5/73 , G06T5/60 , G06V10/26 , G06V20/70 , G06V10/82 , G06V10/764 , G06N3/0464 , G06N3/094 , G06N3/08
Abstract: 本发明公开了一种基于牙体修复及结构化分割的龋病程度分类方法。首先,设计结构分割网络利用图像级细粒度特征和高层语义特征融合实现对牙体实例分割的内部结构信息补充,同时使用基于生成对抗训练的结构感知模块对所产生的结构化分割结果进行判别以鼓励网络分割出更完整的牙体结构。然后通过设计牙体结构修复网络来对结构遭到破坏的牙体实例进行结构重建使其能够正常参与分割产生完整的牙体结构。最后,根据分割出的牙体结构划定龋坏程度分级线,通过判断龋病分割网络获得的龋病区域在分级线内最深的落点得到准确的龋病分类结果。本发明通过解耦龋病分类过程,联合多任务学习,确定出分类边界,使龋病程度分类结果具有更高的准确度及可解释性。
-
公开(公告)号:CN117493607A
公开(公告)日:2024-02-02
申请号:CN202311415276.1
申请日:2023-10-30
Applicant: 杭州电子科技大学
IPC: G06F16/738 , G06V20/40 , G06N3/048 , G06N3/084 , H04N21/8549 , G06V10/82
Abstract: 本发明公开了一种基于对称多尺度注意力的视频摘要方法,该方法首先获得原始视频帧序列,并利用预训练好的特征提取模型对视频帧进行特征提取,得到视频帧级特征。其次构建视频摘要生成网络,将提取的视频帧级特征输入到所述构建的视频摘要生成网络中生成帧级重要性得分。然后构建均方误差损失函数,计算预测的关键帧序列与真实值之间的差距并损失,迭代优化整个网络直至收敛最后根据帧级重要性得分,将预测的关键帧序列使用核时序分割方法转化01背包问题进行求解,获得关键镜头序列,输出视频摘要结果。本发明改善模型捕捉变长上下文场景信息的能力,准确生成视频摘要。
-
公开(公告)号:CN117392675A
公开(公告)日:2024-01-12
申请号:CN202311293866.1
申请日:2023-10-09
Applicant: 杭州电子科技大学
IPC: G06V20/70 , G06V40/20 , G06V10/774 , G06V10/82 , G06V10/30 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于适配网络增强扩散模型的人体姿态场景恢复方法,属于计算机视觉的图像生成领域,该方法首先每一组训练用的数据表示为一个五元组B(N)分别制作灰度图A0,B0。其次由扩散模型得到扩散模型中主(A(N),B(N),y,ZA,ZB),并用点阵A(N),副适配器的差异,并根据差异计算出损失函数,并计算结余损失。最后根据损失函数和结余损失函数得到全局优化函数,对输出的人物姿态图进行优化。本发明消除了通过试探方法训练寻找损失函数间权值时所需的计算开销,实现了预训练模型功能细分的训练方式,使得输出的人物姿态图更为准确稳定。
-
公开(公告)号:CN116993826A
公开(公告)日:2023-11-03
申请号:CN202310945852.7
申请日:2023-07-31
Applicant: 杭州电子科技大学
IPC: G06T7/73 , G06T7/80 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于局部空间融合神经辐射场的场景新视图生成方法,包含如下步骤:S1,将输入图片使用COLMAP进行摄像机标定,并对图像上各像素对应的射线进行数字化表示;S2,构建网络结构,包含神经辐射场网络模型与局部空间信息聚合模型;S3,依据优化采样方式选择像素作为每次网络迭代的输入,输出每个采样点的预测密度与预测颜色;S4,建立体渲染模型计算得到各条光线对应像素点颜色;S5根据像素点的实际颜色与预测颜色,考虑局部空间颜色信息的一致性构建损失函数,并以此更新S2网络结构的参数;本发明通过获取并融合局部空间的三维点信息,进行三维邻近空间中共有特征的交互,以实现质量更高的新视图生成。
-
公开(公告)号:CN116883908A
公开(公告)日:2023-10-13
申请号:CN202310931516.7
申请日:2023-07-27
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/764 , G06V10/62 , G06V10/77 , G06V10/40 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/047 , G06N3/082
Abstract: 本发明公开了一种具有再注意机制的卷积注意力弱监督时序动作定位方法,本发明利用卷积注意力挖掘全局局部信息,并通过再注意进行细化以进行弱监督时序动作检测。步骤如下:1、数据预处理,提取视频数据的初始时空特征。2、具有再注意机制的卷积注意力模型,搭建带有多头自注意力机制的多阶段模型,引入三个辅助分支分别对动作,背景和动作上下文进行学习。3、模型训练,利用反向传播算法训练神经网络参数。4、生成定位检测结果。本发明提出一种弱监督时序动作定位领域中利用卷积注意力机制挖掘局部和全局时序信息,并通过再注意细化注意力权重的多阶段方法,同时通过辅助分支挖掘额外信息,相比于原始方法在性能上有了不少提升。
-
公开(公告)号:CN116776938A
公开(公告)日:2023-09-19
申请号:CN202310694109.9
申请日:2023-06-13
Applicant: 杭州电子科技大学
IPC: G06N3/0475 , G06N3/094 , G06V10/764 , G06V10/82 , G06N3/045 , G06N3/0499
Abstract: 本发明公开了一种基于对抗式训练的多模态适配网络学习方法,包括如下步骤:S1、构建对抗式多模态适配网络,包括多模态模型的构建和对抗式扰动生成器的构建;S2、设置损失函数,包括原始损失、扰动后损失和扰动差异损失;S3、所构建的多模态模型朝着最小化所设置的损失函数的损失方向优化,所构建的对抗式扰动生成器朝着最大化所设置的损失函数的损失方向进行优化。该方法在现有的多模态模型上搭建用于适配下游任务的适配器和用于生成对抗式噪声扰动的扰动生成器,并将适配器与扰动生成器统一在一个对抗式训练的框架中进行端到端的训练,使得多模态模型在对下游任务的适配上能够获得更好的稳健性与泛化性。
-
公开(公告)号:CN111368870B
公开(公告)日:2023-09-05
申请号:CN201911063010.9
申请日:2019-10-31
Applicant: 杭州电子科技大学
IPC: G06V10/80 , G06F16/783 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频‑文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。
-
公开(公告)号:CN116049487A
公开(公告)日:2023-05-02
申请号:CN202310155969.5
申请日:2023-02-23
Applicant: 杭州电子科技大学
IPC: G06F16/738 , G06V10/80 , G06V10/40
Abstract: 本发明公开了一种基于多特征差分注意网络的视频摘要生成方法,通过策略性地融合以对象为中心、以场景为中心和差异注意特征提出了一种多特征差分注意方案,分别推导了以对象为中心和以场景为中心的表示的不同注意力,以通过在时间中涉及更多动态交互来学习判别特征。多个特征与全局和局部多头注意机制结合使用,以提高视频摘要的性能。本发明利用多种特征来充分利用前景对象和背景场景中的视觉辨别力。更重要的是,集成了差异注意功能以改善相邻视频帧之间动态依赖性的捕获。
-
公开(公告)号:CN115827836A
公开(公告)日:2023-03-21
申请号:CN202211460058.5
申请日:2022-11-17
Applicant: 杭州电子科技大学
IPC: G06F16/332 , G06F40/35 , G06F16/732 , G06F16/783
Abstract: 本发明公开了一种基于外部知识约束的开放式视频问答方法,其主要涉及一个可以有效生成域外答案的开放式视频问答框架,以及通过自适应外部知识模块和多流信息交互机制来引入外部常识知识为域外答案的生成提供丰富的语义支持。本发明包括以下步骤:1、对视频和以自然语言描述的问题,答案文本进行数据预处理,2、自适应外部知识模块和多流信息交互机制,进行外部常识知识的引入和特征交互,3、利用解码器结构进行答案生成,4、模型训练,利用反向传播算法训练模型参数。本发明能够有效生成域外答案的开放式视频问答框架,以及利用外部常识知识进行特征融合和答案生成,并且获得了目前在开放式视频问答领域中的最好效果。
-
公开(公告)号:CN115331005A
公开(公告)日:2022-11-11
申请号:CN202210955003.5
申请日:2022-08-10
Applicant: 杭州电子科技大学
IPC: G06V10/26 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04
Abstract: 本发明公开了一种基于深监督融合和特征平滑的指向性物体分割方法。本发明采用深监督特征融合,能够在特征融合与上采样过程中对特征充分监督,同时可以有效结合不同细粒度特征信息,使的最终获得的掩码即可以保留全局特征下的位置信息,也可兼顾局部特征中的细节信息从而有效的提高分割的准确率,采用特征平滑损失函数,可以有效降低特征在融合与上采样过程的大幅波动的可能性,提升最终生成分割掩码的一致性,保证了模型训练过程的稳定性。基于不同的backbone可采用一些训练技巧,选择对应合理的网络参数、优化算法以及学习率的设置,从而提高了指向性物体分割的准确率。
-
-
-
-
-
-
-
-
-