-
公开(公告)号:CN119785018A
公开(公告)日:2025-04-08
申请号:CN202411561562.3
申请日:2024-11-04
Applicant: 北京工商大学
Abstract: 本发明涉及计算机视觉与深度学习领域,提出了一种基于参数调优和多模态数据融合的语义分割方法。本方法的核心在于充分融合RGB、深度和Mask三种模态数据,以提高分割精度,采用冻结的SegFormer编码器并行提取特征,结合参数调优模块以实现室内语义分割任务适配,网络前两层通过Gate门动态加权融合RGB和Mask特征来以增强边界信息,后两层则利用上下文信息交互模块提升特征语义信息表达能力,引入多模态交叉融合模块,采用高效的交叉注意力和改进的空间坐标注意力,确保深度信息与RGB特征有效交互和增强。本发明不仅减少了计算负担,提升了模型效率,还显著提高了室内场景语义分割的准确性,具有广泛的应用前景。
-
公开(公告)号:CN119445118A
公开(公告)日:2025-02-14
申请号:CN202411561585.4
申请日:2024-11-04
Applicant: 北京工商大学
Abstract: 本发明提供一种基于特征协同与多尺度特征融合的RGB‑D语义分割方法,属于计算机视觉和计算机图形学领域。该方法基于编码器‑解码器的网络结构对图像进行语义分割预测,在网络的每个阶段利用多种注意力机制实现多模态特征校正与融合,优化和增强输入数据的特征表示,并在解码器中使用自顶向下多尺度特征融合策略。通过多种注意力机制,模型能够有效捕捉全局特征与局部特征,实现同一尺度下不同模态信息的融合,并促进不同尺度下特征的精细聚合。本发明应用多种注意力机制实现多模态特征的协同与多尺度特征的融合,有效解决了RGB和深度信息之间的差异、数据中的噪声干扰,以及网络提取过程中细节信息的丢失问题。
-
公开(公告)号:CN116757955A
公开(公告)日:2023-09-15
申请号:CN202310732511.1
申请日:2023-06-20
Applicant: 北京工商大学
IPC: G06T5/00 , G06N3/0464 , G06N3/08 , G06N3/048
Abstract: 本发明涉及一种基于全维动态卷积多融合对比网络的图像去噪方法。在单尺度网络中引入了分组全维动态卷积,在保持轻量化的同时,自适应的学习每个样本的不同退化,增强了模型的去噪灵活性,保持了图像原有内容的结构信息。同时,在编解码网络中引入了残差单元、密集连接、跳跃连接以及多重对比注意力机制,在密集卷积层的学习能力和注意力层的筛选能力能获取良好特征的基础上,在捕获图像完整的语义信息的同时加强了图像信息的保留。最后,将编解码网络与单尺度网络的输出图像进行有效融合,学习两者互补的特征信息,并通过对比学习机制,不断缩小去噪子空间,有利于挖掘更接近干净图像的重构信息。本发明中极大地增强了神经网络模型的学习能力,建立起了噪声图像到干净图像的准确映射,从而实现对高斯白噪声和真实噪声图像的实时去噪。
-
公开(公告)号:CN116612403A
公开(公告)日:2023-08-18
申请号:CN202310171280.1
申请日:2023-02-27
Applicant: 北京工商大学
IPC: G06V20/20 , G06V20/40 , G06V10/26 , G06V10/46 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/092
Abstract: 本申请公开了一种基于强化学习的视频场景广告植入候选位置推荐与评价方法。该方法包括提出了SalAds框架来识别视频广告植入的候选空间。利用语义分割、显著性检测和强化学习模型优化候选空间区域,SalAds可以智能地识别多个候选空间。本申请能够更好地提取图像的语义信息和相关显著性特征,自动学习候选区域特征并优化广告植入位置,实现了语义的一致性、增加候选区域的吸引力和广告的商业价值。为了训练SalAds模型,我们除了利用现有的VR视频数据集,另外还构建了一个至少包含1020个场景的手动标记候选空间的初始数据集和利用眼动追踪实验得出的眼动交互数据集。通过实验验证显著区域约束人工标注的候选区域,促使植入广告位置符合人类的主观判断,引入强学学习模型自适应学习广告候选空间区域信息,并可以智能植入广告。
-
公开(公告)号:CN116206234A
公开(公告)日:2023-06-02
申请号:CN202211643930.X
申请日:2022-12-20
Applicant: 北京工商大学
Abstract: 视频是时间和空间相结合的信息载体,所以视频中的人类行为是三维信号。最近尝试使用三维卷积神经网络来探索视频中人类行为的时空信息。尽管三维卷积看起来能够很好的捕获视频中的时空信息,但是三维卷积在这项任务中并未取得与二维卷积在图像领域获得的成功相媲美的结果。我们认为,增加的时间维度以指数形式增长了模型的参数。这样高复杂度的时空融合和巨大的内存成本阻碍了三维卷积网络的发展。为了解决上述问题,本申请提出了一种基于时空分离卷积的视频动作识别网络,该申请主要包括:时空分解的(2+1)D卷积核和带有2D卷积残差的时空特征融合方式。该申请通过显示的分离时空信息的获取减少时空信息的耦合提取和信息冗余。
-
公开(公告)号:CN116563455A
公开(公告)日:2023-08-08
申请号:CN202310358815.6
申请日:2023-04-06
Applicant: 北京工商大学
Abstract: 本申请公开了一种通过融合IOS(口扫数据)和全景X线片与深度学习重建三维牙齿模型的技术。提出了一种以深度学习模型设计为出发点、以全景X线片和IOS网格为输入、三维牙齿模型为输出的端到端的牙齿重建模型,来降低牙齿三维模型获取的难度和提高牙齿三维模型的精度。该架构使用基于编码器和解码器的网络结构来提取图像特征和深度信息;将提取的特征输入到分割网络获取牙齿实例分割图;将提取的图像特征和深度信息输入到重建网络中,得到低精度的牙齿三维模型;将IOS输入到IOS分割网络中得到高精度的三维牙齿模型(不包含牙根);最后将两者融合得到完整的高精度牙齿三维模型。
-
公开(公告)号:CN117935043A
公开(公告)日:2024-04-26
申请号:CN202311716785.8
申请日:2023-12-14
Applicant: 北京工商大学
Abstract: 本发明涉及一种基于GTNNWR的多源遥感数据农业干旱监测方法,结合局部地区气象站点的气象数据和全局卫星遥感数据,推断地理环境特征参数,利用深度学习的方法计算环境特征参数的权重,从而监测其它无气象站点地域的干旱程度,以便于人们做出合理的防范。首先对卫星遥感数据进行预处理获得遥感干旱指数,即土壤湿度指数、植被覆盖指数、冠层水分指数、冠层温度指数、降水指数等;其次,基于气象站点气象数据计算综合植被干旱指数;最后,将遥感干旱指数作为输入通过GTNNWR神经网络去拟合综合植被干旱指数,得到各遥感干旱指数的权重,并以此来监测其它无气象站数据的干旱情况。本发明可以提升气象站点数据稀疏导致的干旱监测精度问题。
-
公开(公告)号:CN117372356A
公开(公告)日:2024-01-09
申请号:CN202311300054.5
申请日:2023-10-09
Applicant: 北京工商大学
Abstract: 本申请公开了一种基于协作学习的牙齿实例分割技术。名为Co‑Mask R‑CNN,旨在通过整合互补信息来增强牙齿图像分析。Co‑Mask R‑CNN首先进行图像增强,得到边缘信息强化后的牙齿边缘图像;然后,引入协作学习策略,将原图像和边缘图像同时作为输入,使用编码器来提取互补图像的特征图,再通过注意力机制,将从两分支提取到的特征图进行动态融合,从而量化两张互补图像在不同空间位置的相对重要性;最后,将融合后的特征图用于图像分析。该方法在为医疗专业人员提供精确的牙齿分割结果方面具有巨大的潜力,为随后的牙齿疾病诊断和治疗奠定可靠的基础。
-
公开(公告)号:CN116205925A
公开(公告)日:2023-06-02
申请号:CN202211643401.X
申请日:2022-12-20
Applicant: 北京工商大学
Abstract: 本申请公开了一种基于改进U‑Net网络的牙齿咬合翼片龋齿分割方法。该方法包括基于改进U‑Net网络模型,在U‑Net网络的普通卷积后加入了DropBlock,保持该网络编码器‑解码器的架构和跳跃连接,在编码‑解码结构的底部添加一个非局部自注意力机制模块,对牙齿咬合翼片图像数据中的患龋区域进行分割并输出结果。本申请能够更好地提取图像的相关特征,有效地缓解网络过拟合,在不增加参数数量的情况下,通过扩大感受野来增强像素信息的相关性,提高龋齿分割的精确度和鲁棒性,辅助龋齿更高效率的检测。
-
公开(公告)号:CN117874424A
公开(公告)日:2024-04-12
申请号:CN202311717140.6
申请日:2023-12-14
Applicant: 北京工商大学
IPC: G06F18/10 , G06F18/214 , G06F18/241 , G06N3/0442
Abstract: 一种基于深度学习网络的风速插值方法。本发明将站点监测到的数据进行归一化与标准化处理,并且将数据集分成训练集与测试集,构建网络损失函数,采用马尔科夫链蒙特罗积分来获得损失函数的估计值,迭代更新最优参数,对风速进行插值。
-
-
-
-
-
-
-
-
-