-
公开(公告)号:CN119809925A
公开(公告)日:2025-04-11
申请号:CN202411826999.5
申请日:2024-12-12
Applicant: 华南理工大学
IPC: G06T3/4038 , G06T3/4053 , G06T5/50 , G06V10/80 , G06N5/04 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质,其中方法包括:采集图像数据,并根据图像提出文本问题;挑选基于同一语言模型训练的多个多模态语言大模型,并合并语言模型的参数;基于输入图像,利用多个视觉编码器提取视觉特征;输入文本,通过语言模型对输入文本进行特征提取,获得文本特征;拼接视觉特征与文本特征,获得融合特征;将融合特征输入语言模型进行推理,输出推理结果。本发明无需额外训练,能够有效提高多模态任务的性能,并减少了部署开销。另外,利用本发明的技术,可以通过融合不同视觉编码器的优势,显著提升多模态大模型的视觉感知效果,同时降低计算资源需求。本发明可广泛应用于人工智能领域。
-
公开(公告)号:CN119048798A
公开(公告)日:2024-11-29
申请号:CN202411001498.3
申请日:2024-07-25
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
IPC: G06V10/764 , G06V10/774 , G06V20/52 , G06V20/40 , G06T7/90
Abstract: 本发明公开了一种钢筋库存变化检测方法、电子设备及存储介质,涉及计算机视觉技术领域,包括:对钢筋堆进行实时视频流采集;利用预设相机拍摄指引生成模型检测预设钢筋堆参考图像与所述钢筋堆实时视频流当前帧,获得相机拍摄指引;根据所述获得的相机拍摄指引调整所述钢筋堆实时视频流的拍摄视角,提取钢筋堆目标图像;利用预设图像变化检测模型与目标检测模型检测所述预设钢筋堆参考图像与所述钢筋堆目标图像,获得钢筋的初始变化库存数;判断钢筋实际变化库存数与所述初始变化库存数是否一致,并在必要时进行库存更新以得到目标变化库存数。这样一来,操作员可在复杂、恶劣、危险的钢筋仓库中,准确、高效、智能地完成钢筋库存变化检测任务。
-
公开(公告)号:CN117132772A
公开(公告)日:2023-11-28
申请号:CN202310895136.2
申请日:2023-07-20
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06V10/26 , G06V20/70 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种面向弱监督点云分割的上下文点云建模实现方法及装置,涉及云分割中上下文信息理解的技术领域,方法对区域点云数据进行连续性遮掩,构造出有益于模型学习点云数据上下文的掩码特征预测任务;通过约束同一点云数据掩码前/后对应特征的一致性,使得模型可以有效利用掩码数据中的邻域信息,提升模型对于点云数据的上下文理解,最终实现点云分割模型在弱标注场景下,语义分割的性能。本发明有效解决了标注十分稀疏、点云结构十分复杂场景下的点云语义分割问题,可广泛运用于大规模3D视觉理解的应用场景。
-
公开(公告)号:CN116468974B
公开(公告)日:2023-10-13
申请号:CN202310702062.6
申请日:2023-06-14
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
Abstract: 本发明公开了一种基于图像生成的烟雾检测方法、装置及存储介质,属于图像数据处理领域。其中方法包括:获取烟雾数据集和无烟雾数据集;根据烟雾数据集训练基于图像掩码生成图像的图像生成网络;采用训练后的图像生成网络对无烟雾数据集进行处理,生成含有不同浓度烟雾的图像以及对应的图像掩码;根据烟雾数据集以及生成的图像获取训练集,根据训练集训练烟雾检测模型;获取待检测图像,将待检测图像输入训练后的烟雾检测模型,检测待检测图像中是否存有火灾烟雾。本发明通过图像生成网络生成场景丰富、浓度不同的逼真的烟雾图像,避免繁琐人工标注的前提下能够极大地扩充烟雾检测模型训练的数据量,提高烟雾检测模型的检测精度以及效果。
-
公开(公告)号:CN116608866B
公开(公告)日:2023-09-26
申请号:CN202310890318.0
申请日:2023-07-20
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于多尺度细粒度特征融合的图片导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取导航目标位置的目标图像;获取智能体在环境中当前时刻的视觉观测;将目标图像和视觉观测输入多尺度细粒度特征融合模块进行多尺度细粒度特征融合,输出融合后的视觉状态特征;根据视觉状态特征预测智能体下一时刻的状态,以使智能体根据状态执行动作,直到到达导航目标位置。本发明利用深度神经网络中隐藏层高分辨率激活图中所包含的物体细粒度特征,将特征作为提示引导视觉观测模型关注当前环境中与目标图像在低级属性和高级语言上具有相关性的区域,从而改善智能体在探索阶段推理和寻找目标位置的能力。
-
公开(公告)号:CN116680427A
公开(公告)日:2023-09-01
申请号:CN202310606289.0
申请日:2023-05-25
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于锚点的密集嵌入生成方法、装置和存储介质,可广泛应用于嵌入生成技术。其中方法包括:获取待检索的目标图像;将所述目标图像输入目标模型中;利用所述目标模型将所述目标图像映射到特征空间中,按照特征空间中的距离进行比较,获得检索结果;其中,所述目标模型通过利用锚点嵌入生成的密集嵌入来训练深度神经网络模型后获得。本发明利用锚点附近的特征空间来稠密的生成无对应数据点的嵌入特征进行训练,从而实现更加准确的图像检索,解决深度度量学习中由于计算资源限制,从而导致现有采样无法采样到有效样本的问题。此外,本发明还能够直接集成到现有的深度度量学习框架中,无需任何额外的修改,并且具有显著的技术效果。
-
公开(公告)号:CN116560239A
公开(公告)日:2023-08-08
申请号:CN202310824569.9
申请日:2023-07-06
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
Abstract: 本发明公开了一种多智能体强化学习方法、装置及介质,属于多个智能体行为自主控制技术领域。其中方法包括:获取观测,智能体根据观测获取动作概率分布,以及推理队友智能体基于观测的动作概率分布;根据获得的动作概率分布,计算每个智能体与队友智能体的行为一致性;通过动态缩放网络获取动态调节因子,根据动态调节因子计算行为一致性的内部奖励;根据链式求导法则,以最大化外部回报为目标,对动态缩放网络的参数进行优化;使用优化完成的策略实现多智能体的协作任务。本发明提出一种基于行为一致性的内在奖励,解决多智能体协作算法忽略智能体之间行为意图的配合,从而导致出现次优化策略的问题,能够有效地提高多智能体之间的协作性能。
-
公开(公告)号:CN116499471A
公开(公告)日:2023-07-28
申请号:CN202310788171.4
申请日:2023-06-30
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于开放场景地图的视觉语言导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取智能体在环境中的视觉图像数据;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息,将以上信息结合构建开放场景地图,提升该地图对开放场景中多样化物体的属性、位置的表征能力,使地图表征不局限于固定的少量物体类别,且增加的物体属性信息可帮助智能体消除物体类别歧义,准确定位感兴趣物体。
-
公开(公告)号:CN116468974A
公开(公告)日:2023-07-21
申请号:CN202310702062.6
申请日:2023-06-14
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
Abstract: 本发明公开了一种基于图像生成的烟雾检测方法、装置及存储介质,属于图像数据处理领域。其中方法包括:获取烟雾数据集和无烟雾数据集;根据烟雾数据集训练基于图像掩码生成图像的图像生成网络;采用训练后的图像生成网络对无烟雾数据集进行处理,生成含有不同浓度烟雾的图像以及对应的图像掩码;根据烟雾数据集以及生成的图像获取训练集,根据训练集训练烟雾检测模型;获取待检测图像,将待检测图像输入训练后的烟雾检测模型,检测待检测图像中是否存有火灾烟雾。本发明通过图像生成网络生成场景丰富、浓度不同的逼真的烟雾图像,避免繁琐人工标注的前提下能够极大地扩充烟雾检测模型训练的数据量,提高烟雾检测模型的检测精度以及效果。
-
公开(公告)号:CN116342817A
公开(公告)日:2023-06-27
申请号:CN202310622513.5
申请日:2023-05-30
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
Abstract: 本发明公开了一种室外大规模三维场景重建方法、系统、设备和介质,属于三维场景重建的技术领域。该方法包括:获取室外场景数据集,根据室外场景数据集获取场景重建数据集;构建三维场景重建模型,在场景重建数据集上迭代训练三维场景重建模型;将待处理的相机轨迹输入训练后的三维场景重建模型,输出场景重建的结果;其中,三维场景重建模型包括外观编码模块、颜色预测模块、图卷积模块和距离场表示模块。本发明的三维场景重建模型,通过图卷积模块对采样点位置、距离场和预测颜色向量进行信息的传递,改进预测质量,有效解决了室外大规模场景重建表面不精确和训练效率低下的问题,提升训练三维重建模型的效率的同时,提高了场景重建表面精度。
-
-
-
-
-
-
-
-
-