-
公开(公告)号:CN119540726A
公开(公告)日:2025-02-28
申请号:CN202510104364.2
申请日:2025-01-23
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06V10/82 , G06V10/44 , G06V10/50 , G06V10/70 , G06V10/77 , G06V20/13 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/0895 , G06N3/096
Abstract: 本公开的实施例公开了基于上下文增强的遥感基础模型预训练方法和装置。该方法的一具体实施方式包括:获取地面遥感图像集和遥感基础模型;对每个地面遥感图像进行图像块划分以生成图像块向量序列;对每个图像块向量序列进行掩码处理以生成掩码图像块向量序列和原始像素值;将每个掩码图像块向量序列输入遥感基础模型,得到重建像素值集;将每个图像块向量序列输入遥感基础模型,得到预测像素值集;确定遥感基础模型的总损失值,其中,总损失值是重建损失值,预测损失值和一致性损失值的总和;根据总损失值,对遥感基础模型进行反向传播参数更新,得到预训练遥感基础模型。该实施方式可以用来提取准确的遥感特征,减少计算资源的浪费。
-
公开(公告)号:CN119540230B
公开(公告)日:2025-04-15
申请号:CN202510088328.1
申请日:2025-01-21
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06T7/00 , G06V10/764 , G06V10/774 , G06V10/46 , G06V10/26 , G06V10/10 , G06V10/82 , G06N3/045 , G06N3/08
Abstract: 本公开的实施例涉及工业缺陷检测技术领域,具体涉及图像异常检测模型训练方法、图像异常检测方法和装置。本公开方法的一具体实施方式包括:获取训练样本集、正常类别提示文本、异常类别提示文本、可学习正常类别提示模板、可学习异常类别提示模板和初始图像异常检测模型;执行模型训练步骤:将正常类别拼接文本向量和异常类别拼接文本向量输入文本编码器,得到正常类别文本特征和异常类别文本特征;对样本图像进行图像嵌入处理;将图像块嵌入向量序列输入图像编码器,得到分块特征序列;将分块特征序列、正常类别文本特征和异常类别文本特征输入分割解码器,得到异常分割预测图;确定图像异常检测模型。该实施方式可以提高工业产品缺陷检出效率。
-
公开(公告)号:CN119540230A
公开(公告)日:2025-02-28
申请号:CN202510088328.1
申请日:2025-01-21
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06T7/00 , G06V10/764 , G06V10/774 , G06V10/46 , G06V10/26 , G06V10/10 , G06V10/82 , G06N3/045 , G06N3/08
Abstract: 本公开的实施例涉及工业缺陷检测技术领域,具体涉及图像异常检测模型训练方法、图像异常检测方法和装置。本公开方法的一具体实施方式包括:获取训练样本集、正常类别提示文本、异常类别提示文本、可学习正常类别提示模板、可学习异常类别提示模板和初始图像异常检测模型;执行模型训练步骤:将正常类别拼接文本向量和异常类别拼接文本向量输入文本编码器,得到正常类别文本特征和异常类别文本特征;对样本图像进行图像嵌入处理;将图像块嵌入向量序列输入图像编码器,得到分块特征序列;将分块特征序列、正常类别文本特征和异常类别文本特征输入分割解码器,得到异常分割预测图;确定图像异常检测模型。该实施方式可以提高工业产品缺陷检出效率。
-
公开(公告)号:CN117576399A
公开(公告)日:2024-02-20
申请号:CN202311605083.2
申请日:2023-11-29
Applicant: 北京航空航天大学 , 北京航空航天大学杭州创新研究院
IPC: G06V10/26 , G06F40/205 , G06F40/279 , G06F40/126 , G06V10/80 , G06V10/764
Abstract: 本发明属于图像分割技术领域,具体涉及一种可泛化的指代表达式图像分割方法,包括对于给定的文本表达式,用统一的形式为其加入直接且关键的提示;将引用表达式送入文本编码器,提取文本特征;将图像输入视觉编码器,结合跨模态注意力对齐机制联合编码视觉特征和文本特征;随后在多模态融合模块,采用多模态特征聚合模块并引入来自预训练视觉模型的引导以利用视觉空间关联;将跨模态融合特征输入解码器,在层级解码过程中引入预训练视觉模型的引导;最后输入分类头,得到图像分割结果。本方法大幅提升了模型对多变的自由文本描述的泛化性,且有效改善了模型对未见视觉目标的泛化性。
-
公开(公告)号:CN119513322A
公开(公告)日:2025-02-25
申请号:CN202510081185.1
申请日:2025-01-20
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06F16/353 , G06F16/3329 , G06F40/35 , G06F40/284 , G06N3/0455 , G06N3/048
Abstract: 本公开的实施例公开了文本语句情感识别方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:对预先存储的对话文本数据进行数据预处理,得到各个对话文本信息;将各个对话文本信息进行拼接处理,得到各个预处理对话文本数据;生成对话情感基调描述信息集;生成各个语句特征向量集和各个全局对话情感特征向量;生成各个对话图结构信息;生成各个语句情感特征信息集;生成各个文本语句情感类别。该实施方式使得文本语句情感识别的准确性和一致性有所提高。
-
公开(公告)号:CN119539013A
公开(公告)日:2025-02-28
申请号:CN202510080721.6
申请日:2025-01-20
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06N3/084 , G06N3/0985 , G06N3/0455 , G06V10/82 , G06V10/25 , G06V10/764 , G06V20/70 , G06F40/30 , G06F18/25 , G06F18/22
Abstract: 本公开的实施例涉及目标检测领域,具体涉及基于小样本提示微调的多模态检测模型训练方法和装置。该方法的一实施方式包括:获取训练样本集和初始多模态检测模型;执行训练步骤:得到文本语义嵌入向量序列,对第一层文本提示向量序列与文本语义嵌入向量序列进行拼接处理,得到初始文本嵌入向量序列;得到图像块嵌入向量序列组,对第一层图像提示向量序列与图像块嵌入向量序列进行拼接处理,得到初始图像嵌入向量序列组;得到图像文本相似度矩阵组;对各个图像文本相似度矩阵进行融合处理,得到图像文本对齐分数矩阵;生成分类标注图像;确定多模态检测损失值;确定多模态检测模型。该实施方式可以降低多模态检测模型的复杂度,减少计算资源的占用。
-
公开(公告)号:CN119495127A
公开(公告)日:2025-02-21
申请号:CN202510075914.2
申请日:2025-01-17
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/044 , G06N3/0464
Abstract: 本公开的实施例涉及视频检测技术领域,具体涉及基于多模态大模型微调的视频行为识别方法、装置和设备。本公开方法的一具体实施方式包括:获取视频行为识别数据集和初始视频行为识别模型;对于每个视频行为识别数据,执行以下步骤:确定视频行为识别数据包括的视频帧序列对应的关键帧图像;将关键帧图像存储至预设图像存储位置;基于标签文本模板、关键帧图像、图像存储路径和视频行为识别数据包括的行为标签,生成训练样本,其中,训练样本包括样本图像和样本标签数据;对初始视频行为识别模型进行训练,以及确定为视频行为识别模型;将目标视频数据输入视频行为识别模型,得到视频行为文本信息。该实施方式可以提高视频行为识别模型的训练时长。
-
公开(公告)号:CN114299526B
公开(公告)日:2025-04-29
申请号:CN202111602980.9
申请日:2021-12-24
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06V30/412 , G06V30/148 , G06V30/226
Abstract: 本申请涉及一种手写棋谱录入方法及设备,方法包括:获取手写棋谱图像;基于交互式区域生长算法将手写棋谱图像有序分割成多个独立表格区域,将分割得到的各独立表格区域压入第一堆栈中,依次从第一堆栈中提取独立表格区域并获取独立表格区域对应的字符信息,将各独立表格区域对应的字符信息进行标注并保存。由于各独立表格区域均对应一张手写棋谱表格,本申请中,在待识别的手写棋谱图像中包含多个手写棋谱表格时,基于交互式区域生长算法对多个手写棋谱表格进行有序分割并依次单独识别,由于手写棋谱表格是进行有序分割的,后续可以将识别出的字符信息根据其对应的手写棋谱表格进行标注后进行保存。
-
公开(公告)号:CN113901902B
公开(公告)日:2024-08-20
申请号:CN202111155721.6
申请日:2021-09-30
Applicant: 北京航空航天大学
IPC: G06V20/40 , G06V20/52 , G06V40/20 , G06V10/44 , G06V10/80 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/084 , G06N3/048
Abstract: 本发明公开了一种基于层级图卷积网络的群体场景图生成方法,利用预训练卷积神经网络提取体育视频中所有个体的视觉特征和包围盒,聚类为两个队伍,根据视觉特征构造队伍关系图和群体关系图,将队伍关系图输入队伍图卷积网络提取队伍关系特征,将群体关系图输入群体图卷积网络提取群体关系特征,根据队伍关系特征和群体关系特征生成群体场景图,上述方法能有效捕捉体育视频中群体间关系,生成群体场景图进行体育视频理解。在团体对抗型体育项目中,运动员个体间关系被弱化,队伍间关系得到凸显,因此能简化场景图生成方法的应用场景,将场景图生成方法应用于体育视频捕捉群体间关系,生成群体场景图进行体育视频的理解。
-
公开(公告)号:CN118172547A
公开(公告)日:2024-06-11
申请号:CN202410605736.5
申请日:2024-05-16
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06V10/25 , G06V10/28 , G06V10/771 , G06V10/74
Abstract: 本公开的实施例公开了图像目标识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对输入图像中的各个前景目标进行标记处理;对前景目标矩形框区域进行特征提取,生成前景目标图像特征;执行以下步骤:将前景目标图像特征与待检测目标图像特征之间的相似度确定为初始特征相似度;对各个待检测目标图像特征进行排序;选择初始特征作为第一筛选特征集合;执行以下步骤:生成第二筛选特征集合;生成前景目标图像特征和初始特征的相似度;生成对应前景目标图像特征的图像目标信息。该实施方式在针对新的图像目标检测需求信息可以不需要重新采集图像数据,节约了计算资源,缩短了图像目标检测的时间。
-
-
-
-
-
-
-
-
-