-
公开(公告)号:CN119449979A
公开(公告)日:2025-02-14
申请号:CN202411264570.1
申请日:2024-09-10
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于双向分离相关量的全景视频插帧方法。本发明方法首先提取输入图像的外观特征和相关量特征,然后利用相关量特征进行成本聚合获得初始光流,对初始光流进行迭代更新得到细化光流、最终特征值、掩膜和残差信息,最后对各信息进行融合,得到插帧图像。本发明采用了成本聚合的方法来分离生成的相关量,更有效地处理全景视频中存在的运动各向异性和运动分布的不均匀的特殊问题,有效地解决因不同维度投影的采样率差异所造成的伪影和估计不准确的问题。本发明更好地适应不同纬度上的运动幅度差异所引起的运动查询误差,进而提高光流预测的精度,并最终获得质量更高的中间帧。
-
公开(公告)号:CN119180838A
公开(公告)日:2024-12-24
申请号:CN202411078910.1
申请日:2024-08-07
Applicant: 杭州电子科技大学
IPC: G06T7/136 , G06T7/194 , G06T7/11 , G06V10/764 , G06V10/80 , G06V10/82 , G06V10/26 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06N3/084 , G06N3/094
Abstract: 本发明公开了基于多尺度深度学习的乳腺癌组织学图像分割与分类方法,首先进行数据获取及预处理;然后构建乳腺癌深度全切片图像‑间质分割与分类模型,模型采用多尺度注意力融合网络架构,包括特征提取模块、注意力机制模块、特征融合模块和分割与分类模块;通过预处理后的数据进行模型训练,最后通过训练好的模型完成乳腺癌组织学图像分割与分类,并进行Grad‑CAM可视化。本发明通过创新的多尺度深度学习架构和技术措施,显著提升了乳腺癌组织学图像分割和分类的自动化程度、精度和鲁棒性,为临床应用提供了强有力的技术支持。相比现有技术,本发明在功能上实现了更高的自动化水平、更高的分割和分类精度以及更强的全局信息利用能力。
-
公开(公告)号:CN118828058A
公开(公告)日:2024-10-22
申请号:CN202410708537.7
申请日:2024-06-03
Applicant: 杭州电子科技大学
IPC: H04N21/2343 , H04N21/4402 , H04N21/44 , H04N21/234 , H04N9/64 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了Transformer与CNN相结合的视频插帧方法。本发明的网络结构包括特征提取网络、光流估计网络和融合与细化网络。特征提取网络不同阶段的输出作为不同尺度的特征,光流估计网络通过对前后两帧视频图像进行特征提取和运动估计,生成前后两帧到中间帧的双向光流信息,融合与细化网络输入为特征提取网络提取的不同阶段的特征信息、光流估计网络生成的输出光流,输出为一张掩膜图像以及一副残差图像。原始图像经过光流的绘制,再通过掩膜做加权最后加上残差图像,输出最终的插帧图像。本发明通过Transformer模型与CNN网络相结合,能够从整个图像范围内提取丰富的语义信息,并有效地捕捉帧间的运动关系。
-
公开(公告)号:CN118646912A
公开(公告)日:2024-09-13
申请号:CN202410661885.3
申请日:2024-05-27
Applicant: 杭州电子科技大学
IPC: H04N21/2343 , H04N21/4402 , H04N7/01
Abstract: 本发明属于视频处理技术领域,公开了一种结合时空特征优化的多尺度视频插帧方法,首先通过多尺度特征编码完成不同感受野的运动特征提取,接着利用注意力机制增强输入特征之间的时空依赖性,然后在解码阶段加入时间特征实现任意时刻的中间帧运动估计。采用迭代解码端的方式合成不同时刻的中间帧。最后,将生成的所有结果通过时空优化模块共同优化,进一步捕获多个中间帧之间时空上的关联,保证多倍视频插帧结果的整体一致和连贯性。本发明方法利用重建损失、中间特征损失和感知损失联合优化,有效地解决视频插帧中大尺度运动场景预测不准确的问题,得到更逼真的中间帧。
-
公开(公告)号:CN118570107A
公开(公告)日:2024-08-30
申请号:CN202410816334.X
申请日:2024-06-24
Applicant: 杭州电子科技大学
IPC: G06T5/77 , G06T5/60 , G06V10/25 , G06V10/40 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本发明公开了一种基于核变换和掩膜引导归一化全景图像修复方法,通过卷积核变化提取全景图像中的特征信息,可以更好的完成存在大量扭曲的全景图像修复任务,使得修复的结果更加合理真实,符合人的视觉体验;通过多头自注意力机制来学习全景图像中的长程特征信息;通过掩膜引导归一化区域,可以对归一化过程进行自适应调整,灵活指示哪些样本或特征应该参与归一化过程,同时对于输入数据存在缺失的情况,掩膜引导归一化可以通过忽略缺失值的计算或将其视为无效样本,从而更好地处理缺失数据的情况,这有助于提高模型在存在缺失值的情况下的鲁棒性。该方法可以直接应用在全景图像、视频修复等领域。
-
公开(公告)号:CN112784698B
公开(公告)日:2024-07-02
申请号:CN202011637358.7
申请日:2020-12-31
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/82 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/764 , G06V10/766 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/0985 , G06N3/048
Abstract: 本发明公开了基于深层次时空信息的无参考视频质量评价方法,包括如下步骤:S1,内容感知特征提取,利用Resnet‑50预训练的深度神经网络,提取顶层的语义层特征后进行聚合,对特征图进行均值聚合与标准差聚合;S2,对时间记忆效应进行建模,在特征整合方面,采用GRU网络对长期依赖关系进行建模,在质量聚合方面,提出主观启发的时间池化模型并将其嵌入到网络中;现有的NR‑VQA方法无法很好地对VQA任务中的长期依赖关系建模,为了解决这个问题,我们求助于GRU,它是带有门控制的递归神经网络模型,能够集成特征并学习长期依赖关系,本发明中使用GRU集成内容感知功能并预测逐帧质量得分。
-
公开(公告)号:CN118247224A
公开(公告)日:2024-06-25
申请号:CN202410228084.8
申请日:2024-02-29
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的乳腺癌病理图像分析方法。首先构建改进型的EfficientNet‑B0网络模型并通过公开的乳腺癌临床样本数据集进行模型优化,直至损失函数收敛,得到训练好的图像分析模型;利用训练好的图像分析模型对待识别的乳腺癌病理图像进行分析,生成清晰的上皮组织图像和间充质组织图像。本发明方法能够更准确地识别和分类乳腺癌病理图像中的上皮组织和间充质组织,更好地帮助医生理解和解读医学影像,从而提高乳腺癌诊断的准确性,提高工作效率,同时可为预测乳腺癌的发展和愈后提供重要帮助,也为医生制定个性化和高效的治疗方案提供了重要参考。
-
公开(公告)号:CN118155290A
公开(公告)日:2024-06-07
申请号:CN202410442762.0
申请日:2024-04-12
Applicant: 杭州电子科技大学丽水研究院
IPC: G06V40/20 , G06V10/40 , G06V10/80 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种多模态深度感知的高精度集成动态手势识别方法。首先获取动态手势数据集,应用2D和3D数据增强方法增加样本数量;然后将增强后的数据进行灰度变换,并分别输入3D‑CNN子网络、ConvLSTM子网络和TCN子网络分别提取手势序列特征;将手势序列特征直接或融合输入相应分类器;最后将分类器结果集成,输出最终的概率分布。本发明额外对数据进行了数据增强和灰度变换,在数据原有的多模态之外,增加了灰度2D和灰度3D模态,使得本方法能识别分辨率更低的输入图像;并且本发明使用了一种优化加权集成,能够更有效地优化的综合多模态的分类结果。
-
公开(公告)号:CN113487564B
公开(公告)日:2024-04-05
申请号:CN202110753105.4
申请日:2021-07-02
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06N3/0464 , G06N3/042 , G06N3/09 , H04N17/00
Abstract: 本发明属于用户原创内容视频处理技术领域,公开了一种用于用户原创视频的双流时序自适应选择视频质量评价方法,包括1:基于内容权重分配帧内质量感知模块;2:双流全局时域建模;3:双流更深层次损失函数权重分配。本方法从时域与空域两个维度对视频质量特征进行提取,在空域方面,提取了多尺度的特征图,结合人眼视觉显著性感知对特征图进行权重再分配。在时域方面,引入双流更深层次RNN结构,对前向与后向时序信息进行迭代提取深层次双时序信息。最后,通过深度监督模块对不同的感知层次与顺序的进行损失函数的分配后回归最后的得分。在四个UGC‑VQA数据库上,与目前最好的深度学习方法相比,实现了更进一步的性能提升。
-
公开(公告)号:CN117376584A
公开(公告)日:2024-01-09
申请号:CN202311500891.2
申请日:2023-11-13
Applicant: 杭州电子科技大学
IPC: H04N19/587 , H04N21/2343 , H04N21/4402 , G06N3/0464
Abstract: 本发明方法公开了一种基于多分支对称网络的非线性运动估计视频插帧方法,在粗帧合成阶段提取多个连续的视频帧的高级语义特征,并进行编码特征的融合,通过双分支上采样模块中的特征的交互操作和单光流的逐层细化操作自适应地获取视频帧之间的非线性运动特征,得到更为准确的运动估计和粗帧,然后在细帧合成阶段,通过细化网络生成残差来补偿粗帧,得到细化后的中间帧。本发明解决了高阶非线性运动场景的视频插帧问题,提取多个视频帧的高级语义信息,自适应地建立运动模型,有效解决现有技术中难以用固定的数学模型准确描述的问题;通过借助深度学习技术,采用光流法策略,能够更好地处理复杂的运动场景,使得合成的中间帧图像在视觉上更加真实。
-
-
-
-
-
-
-
-
-