-
公开(公告)号:CN119295751A
公开(公告)日:2025-01-10
申请号:CN202411415480.8
申请日:2024-10-11
Applicant: 嘉兴恒创电力设计研究院有限公司 , 清华大学
IPC: G06V10/26 , G06V20/70 , G06V20/10 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06V10/764
Abstract: 本申请涉及一种遥感图像的语义分割方法、装置、电子设备及存储介质。包括:对已获取的遥感图像数据集进行预处理,并利用预设的模型框架对预处理后的遥感图像数据集进行特征提取和融合,得到每个像素的融合后的特征,其中,预设的模型框架包括Mamba2编码器和CNN解码器;利用预设的分类网络对每个像素的融合后的特征进行分类,确定每个像素所对应的遥感图像的语义类别。由此,通过结合先进的模型Mamba2模型和卷积神经网络CNN,能够有效处理和分割各种尺度和复杂度的遥感图像,解决了现有技术在处理大尺寸图像时计算成本过高、处理复杂的依赖关系时受限于训练数据的不足和泛化能力的问题,从而提供更加准确的地物分类和语义信息。
-
公开(公告)号:CN119168183A
公开(公告)日:2024-12-20
申请号:CN202411415482.7
申请日:2024-10-11
Applicant: 嘉兴恒创电力设计研究院有限公司 , 清华大学
IPC: G06Q10/047 , G06Q30/0201 , G06F16/29 , G06Q10/0639 , G06V10/764 , G06N5/01 , G06N20/20 , G06N3/006 , G06N3/126 , G06Q50/06 , G06F17/16
Abstract: 本申请涉及输电线工程技术领域,特别涉及一种输电线选线方法、装置、设备及介质,其中,方法包括:获取目标区域的多源地理信息;对多源地理信息进行分类处理得到目标分类结果,根据目标分类结果计算目标区域中每条输电线路径的路径地理综合成本值权重;将每条路径的路径地理综合成本值权重输入选线模型,选线模型输出目标区域的目标输电线路径,其中,选线模型基于目标灰狼算法进行选线,目标灰狼算法为引入遗传算法的交叉和变异操作的灰狼算法。由此,解决了现有技术中输电线规划成本高、效率低、精度差且主观性强等问题。
-
公开(公告)号:CN119169653A
公开(公告)日:2024-12-20
申请号:CN202411418085.5
申请日:2024-10-11
Applicant: 嘉兴恒创电力设计研究院有限公司 , 清华大学
IPC: G06V30/422 , G06V30/148 , G06V30/14 , G06V30/146 , G06V30/18 , G06V30/164 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本申请涉及一种基于图形原语符号识别的CAD勘测图纸智能识别方法及装置,其中,方法包括:获取CAD勘测图纸,并将其转换为栅格化像素图像;对栅格化像素图像进行文档布局分析和图像OCR识别操作,得到栅格化像素图像对应的文本信息,同时提取栅格化像素图像的原始特征图,生成对应的多个候选框,以确定CAD勘测图纸中目标元素的元素位置;将CAD勘测图纸的全景符号拆分为多个图形原语,并生成CAD勘测图纸对应的二维特征图,且投影每个图形原语至二维特征图,获取图形原语嵌入,以识别图形原语全景符号;拼接文本信息、元素位置和图形原语全景符号,得到CAD勘测图纸的识别拼接结果。由此,解决了现有识别方法在CAD勘测图纸领域中精度不足,且识别不全面等问题。
-
公开(公告)号:CN116416480A
公开(公告)日:2023-07-11
申请号:CN202310680502.2
申请日:2023-06-09
Applicant: 清华大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06V10/774 , G06N3/0895 , G06N3/09
Abstract: 本发明提供一种基于多模板提示学习的视觉分类方法和装置,涉及机器学习技术领域,包括:利用候选文本集生成多个提示模板下的候选文本集;将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中,得到视频在每一个提示模板下的类别概率分布;利用所述类别概率分布,确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型,提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率,进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。
-
公开(公告)号:CN116416480B
公开(公告)日:2023-08-25
申请号:CN202310680502.2
申请日:2023-06-09
Applicant: 清华大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06V10/774 , G06N3/0895 , G06N3/09
Abstract: 本发明提供一种基于多模板提示学习的视觉分类方法和装置,涉及机器学习技术领域,包括:利用候选文本集生成多个提示模板下的候选文本集;将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中,得到视频在每一个提示模板下的类别概率分布;利用所述类别概率分布,确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型,提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率,进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。
-
-
-
-