-
公开(公告)号:CN116993976A
公开(公告)日:2023-11-03
申请号:CN202310877057.9
申请日:2023-07-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,提供一种引用图像分割模型训练方法及引用图像分割方法,首先将图像样本中每个目标实例对应的文本描述输入至初始引用图像分割模型中,由文本编码器对文本描述进行特征提取,得到初始文本特征;然后由图像编码器提取图像样本的图像特征,并采用交叉注意力机制运算进行迭代优化与融合,分别得到优化后的目标文本特征和目标跨模态图像融合特征;最后将目标跨模态图像融合特征通过解码器得到分割结果,并借助于计算得到的训练损失进行模型训练。该方法可以有效提升目标引用图像分割模型对于低质量文本描述的分割能力,减少混淆目标错误匹配的情况发生。
-
公开(公告)号:CN116958668A
公开(公告)日:2023-10-27
申请号:CN202310856207.8
申请日:2023-07-12
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/40 , G06V10/74 , G06F16/35 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及计算机视觉领域,提供一种领域泛化方法、装置、电子设备和存储介质,其中方法包括:获取源域样本图像和目标域图像;基于文本提示模板,生成包括领域信息和图像类别信息的领域相关文本;基于图像编码器,提取源域样本图像的视觉特征,并基于文本编码器,提取领域相关文本的文本特征;基于分类器,应用视觉特征对源域样本图像进行图像分类,并应用文本特征对领域相关文本进行文本分类;基于图像分类损失和文本分类损失,对图像编码器和分类器进行参数迭代,参数迭代完成后的图像编码器和分类器用于对目标域图像进行分类。本发明提供的领域泛化方法、装置、电子设备和存储介质,有效地提升了模型的泛化性。
-
公开(公告)号:CN116935107A
公开(公告)日:2023-10-24
申请号:CN202310855205.7
申请日:2023-07-12
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/774 , G06V10/766 , G06V10/82 , G06V10/40 , G06N3/0464 , G06N3/0895 , G06N3/084
Abstract: 本发明提供一种基于互联网搜索的检测类别自扩展目标检测方法及装置,所述方法包括:将待检测图片输入至目标检测模型,得到目标检测模型输出的目标检测结果;其中,目标检测模型的训练步骤包括:基于待扩展检测类别,搜索待扩展检测类别对应的样本图片;基于样本图片以及待扩展检测类别,对初始检测模型进行训练,得到第一检测模型;将样本图片输入至第一检测模型,得到第一检测模型输出的样本图片对应的第一伪标签;基于样本图片、第一伪标签以及携带有标签的已知类别图片一同对第一检测模型进行训练,得到目标检测模型。本发明能够使得目标检测模型无需额外人工标注即可实现扩展检测类别。
-
公开(公告)号:CN113158909B
公开(公告)日:2023-06-27
申请号:CN202110447553.1
申请日:2021-04-25
Applicant: 中国科学院自动化研究所
IPC: G06V40/20 , G06V10/764 , G06V10/82 , G06V20/40 , G06N3/0464 , G06N3/084
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于多目标跟踪的行为识别轻量化方法、系统、设备,旨在解决现有行为识别方法无法直接识别多目标视频数据中每个个体行为的问题。本发明方法包括:获取输入视频中t时刻的图像帧,作为输入图像;获取多个检测目标分别对应的检测框作为目标检测框;并提取各目标检测框的特征,作为第一特征;利用卡尔曼滤波算法预测t‑1时刻各追踪到的目标在t时刻图像帧中对应的检测框,并提取各检测框的特征,作为第二特征;将第一特征、第二特征进行匹配,获得视频中每个目标的跟踪序列;对各目标的跟踪序列,通过预构建的行为分类模型获取其对应的行为分类结果。本发明实现了多目标视频数据中每个个体行为的识别。
-
公开(公告)号:CN114842287B
公开(公告)日:2022-12-06
申请号:CN202210307546.6
申请日:2022-03-25
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/80 , G06V20/64
Abstract: 本申请提供一种深度引导变形器的单目三维目标检测模型训练方法及装置,该方法包括:根据各个三维包围框中心点坐标及其绝对深度值训练得到第一模型;通过第一模型变换各个原始深度图,得到各个目标深度图,通过移窗视觉变形器网络融合各个目标深度图及其单目三维图像,得到各个高阶图像特征;通过预设锚框提取各个高阶图像特征的各个建议框,通过预设算法计算各个建议框的损失值;根据各个损失值计算全局损失值,结合预设模型训练方法进行模型训练,得到单目三维目标检测模型。本申请实施例提供的深度引导变形器的单目三维目标检测模型训练方法得到携带深度信息的单目三维目标检测模型,通过单目三维目标检测模型提升了单目三维目标的检测性能。
-
公开(公告)号:CN114663536A
公开(公告)日:2022-06-24
申请号:CN202210118720.2
申请日:2022-02-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像压缩方法及装置,所述方法包括:获取待压缩图像;基于预处理规则将所述待压缩图像划分为多个图像块,并将所有所述待压缩图像块输入到预存的目标编码器中,以获取第一隐变量;将所述第一隐变量输入到预存的熵模型中,以获取第二隐变量;将所述第二隐变量输入到预存的目标解码器中,以获取压缩后的图像块,并根据所述压缩后的图像块获取压缩后的图像;本发明所述方法在图像压缩任务中引入Transformer模块并采用对称处理架构进行图像的编码和解码,提高了图像压缩效率。
-
公开(公告)号:CN112446905B
公开(公告)日:2021-05-11
申请号:CN202110126538.7
申请日:2021-01-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于实时定位与建图、计算机视觉技术领域,具体涉及一种基于多自由度传感关联的三维实时全景监控方法、系统、装置,旨在解决现有监控技术无法实现大范围三维全景视频监控,监控效率低、效果差的问题。本系统方法包括获取N种不同自由度的传感器的实时观测数据,构建各传感器对应的三维语义地图,作为局部地图;对各传感器产生的局部地图进行整合,得到全景地图,作为第一地图;通过RANSAC算法获取各传感器在第一地图中对应估计的外参矩阵;计算真实的外参矩阵与估计的外参矩阵的误差,对第一地图进行更新,得到待监控场景当前时刻最终获取的全景地图。本发明实现大范围内三维全景视频监控,提高了监控效率,保证了监控的质量与效果。
-
公开(公告)号:CN110084245B
公开(公告)日:2020-12-25
申请号:CN201910273048.2
申请日:2019-04-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机及机器学习领域,具体涉及了一种基于视觉注意机制强化学习弱监督图像检测方法、系统,旨在解决现有的图像检测方法需要大量有明确标签的训练数据,且标记费时费力的问题。本发明方法包括:获取具有弱监督标记的图像作为输入图像;采用特征提取网络提取输入图像的特征;依据对应的弱监督标记,计算并排序,获得排序后的自顶向下的特征表示;将其输入深度Q网络,计算擦除动作序列;将擦除动作序列作用于输入图像进行擦除操作,直到预设的停止动作,将获得的图像作为检测结果。本发明使用自顶向下的信息通过决策神经网络从动作空间中得到最优动作策略,能有效地模仿人类的视觉机理,通过迭代方式聚焦显著区域。
-
公开(公告)号:CN111967442A
公开(公告)日:2020-11-20
申请号:CN202010920874.4
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别领域,具体涉及一种基于实例导向检测网络的行人搜索方法、系统、装置,旨在解决现有的行人搜索方法搜索准确率较低问题。本发明方法包括:获取输入视频中第t帧图像,作为第一图像;通过预训练的行人检测模型得到第一图像中各候选区域与第二图像的相似度并排序,排序后选取前N个候选区域作为检测区域;第二图像为预获取的待搜索行人目标的图像;基于各检测区域、第二图像,通过预训练的行人再识别模型得到行人目标的搜索结果。本发明提高了行人目标搜索的准确率。
-
公开(公告)号:CN111723814A
公开(公告)日:2020-09-29
申请号:CN202010507843.6
申请日:2020-06-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于深度学习、计算机视觉及模式识别领域,具体涉及了一种基于跨图像关联的弱监督图像语义分割方法、系统、装置,旨在解决弱监督采用的粗略标注带来的语义分割目标不完整、定位不准确、语义类别判断不准确的问题。本发明包括:通过跨图像间关联关系模块从多张同类别物体的图像间获取互补信息,得到融合特征;基于融合特征进行图像语义分割模型的训练;通过训练好的模型,获取单张输入图像或多张同类别物体图像组的语义分割结果。本发明从粗略的弱图像标注生成像素级的伪图像标注,并在模型训练过程中,从不同图像间获取互补信息,来弥补伪图像标注不全的不足,能够在仅依赖图像级标注的情况下,显著地提高弱监督语义分割模型的性能。
-
-
-
-
-
-
-
-
-