基于关键点检测和局部特征对齐的车辆重识别方法

    公开(公告)号:CN112990152B

    公开(公告)日:2021-07-30

    申请号:CN202110504848.8

    申请日:2021-05-10

    Abstract: 本发明属于计算机视觉和模式识别领域,具体涉及一种基于关键点检测和局部特征对齐的车辆重识别方法,旨在解决现有的车辆重识别方法在消除车辆视角变化时特征一致性较差,进而导致车辆重识别鲁棒性较差的问题。本方法包括获取待识别的车辆图像,作为输入图像;对输入图像进行关键点检测,获取待识别的车辆的关键点及其对应的置信度,并将输入图像中待识别的车辆划分为N部分,作为局部图像;提取输入图像、各局部图像的特征,作为全局特征、局部特征,并将各局部特征与全局特征进行拼接,作为综合特征;计算综合特征与车辆图像库中各图像对应特征的距离并进行排序,将排序结果作为重识别结果进行输出。本发明提高了车辆重识别的鲁棒性。

    基于关键点检测和局部特征对齐的车辆重识别方法

    公开(公告)号:CN112990152A

    公开(公告)日:2021-06-18

    申请号:CN202110504848.8

    申请日:2021-05-10

    Abstract: 本发明属于计算机视觉和模式识别领域,具体涉及一种基于关键点检测和局部特征对齐的车辆重识别方法,旨在解决现有的车辆重识别方法在消除车辆视角变化时特征一致性较差,进而导致车辆重识别鲁棒性较差的问题。本方法包括获取待识别的车辆图像,作为输入图像;对输入图像进行关键点检测,获取待识别的车辆的关键点及其对应的置信度,并将输入图像中待识别的车辆划分为N部分,作为局部图像;提取输入图像、各局部图像的特征,作为全局特征、局部特征,并将各局部特征与全局特征进行拼接,作为综合特征;计算综合特征与车辆图像库中各图像对应特征的距离并进行排序,将排序结果作为重识别结果进行输出。本发明提高了车辆重识别的鲁棒性。

    一种基于可解释视觉提示的人物交互行为识别方法和装置

    公开(公告)号:CN119964227A

    公开(公告)日:2025-05-09

    申请号:CN202411725597.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于可解释视觉提示的人物交互行为识别方法和装置,包括:基于获取的多个包含人物交互行为的图片生成人物交互行为识别数据集;将数据集中的图像输入特征提取网络得到全图特征;将全图特征与为图像添加的视觉提示输入人体物体检测器,得到人体视觉特征、物体视觉特征、人体视觉提示和物体视觉提示;将这些特征输入人物交互行为解码器得到交互行为特征;基于预训练的教师网络模型对图像进行检测得到人体姿态特征、物体特征和交互区域特征,作为教师特征,将人体视觉提示、物体视觉提示和交互行为特征作为学生特征,蒸馏识别网络的参数,得到训练后的人物交互行为识别网络。基于该网络能够实现准确的人物交互行为识别。

    一种基于双层混合专家模型的视频理解方法和装置

    公开(公告)号:CN119964043A

    公开(公告)日:2025-05-09

    申请号:CN202411728301.6

    申请日:2024-11-28

    Abstract: 本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。

    基于深度学习的姿态估计方法以及系统

    公开(公告)号:CN119006598B

    公开(公告)日:2025-04-29

    申请号:CN202411457850.4

    申请日:2024-10-18

    Abstract: 本发明提供一种基于深度学习的姿态估计方法以及系统,应用于图像识别领域,其中,方法包括:获取目标图像、自然语言指令以及模板图像;通过预设的提示生成器,分别对自然语言指令与模板图像进行编码,得到文本特征与视觉特征;通过提示生成器的大语言模型,对文本特征与视觉特征进行多模态特征融合,得到多模态特征信息;通过提示生成器的视觉嵌入投影层,基于多模态特征信息,生成姿态提示向量;将目标图像与姿态提示向量输入至预设的姿态估计器,得到姿态估计器输出的关键点热力图;对关键点热力图进行关键点位置解析,得到目标图像的姿态估计结果。通过本发明能够灵活地适应不同的类别的姿态估计需求。

    一种基于大语言模型上下文压缩的长文本生成方法

    公开(公告)号:CN119761306A

    公开(公告)日:2025-04-04

    申请号:CN202411564900.9

    申请日:2024-11-05

    Abstract: 本发明提供一种基于大语言模型上下文压缩的长文本生成方法,方法包括:获取待压缩的上下文文本以及提示词文本,并进行基于压缩的编码处理,得到对应的压缩向量以及提示词嵌入向量;将压缩向量与提示词嵌入向量进行拼接,并对拼接得到的融合特征进行基于自回归的解码处理,得到对应的多个token标识符;根据预设的词表,将token标识符逐一地映射为文本字符串,并将文本字符串组成为压缩上下文文本。通过本申请,将大语言模型处理的上下文长文本进行压缩,解决现有技术中语义模型处理长上下文文本时需要消耗巨大的模型计算资源和数据存储资源的技术问题。

    基于隐式结构特征的生成式指代分割方法及装置

    公开(公告)号:CN118570481B

    公开(公告)日:2024-12-06

    申请号:CN202411062005.7

    申请日:2024-08-05

    Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。

    基于多模态大模型的手术视频处理方法及装置

    公开(公告)号:CN119048947A

    公开(公告)日:2024-11-29

    申请号:CN202410894276.2

    申请日:2024-07-04

    Abstract: 本发明提供一种基于多模态大模型的手术视频处理方法及装置,其中,上述方法包括:确定手术视频以及与手术视频相关的原始问题;对手术视频进行拆分,得到固定帧数的多个视频段落;通过预训练的视频编码器对多个视频段落中的每个视频段落进行编码处理,得到抽象特征;通过预设的多模态转换器将抽象特征的空间维度转换至与预设的多模态大模型的空间维度一致,得到处理后的抽象特征;基于处理后的抽象特征与文字辅助描述进行交叉嵌入,得到混合抽象特征;将混合抽象特征与原始问题输入至预设的多模态大模型,得到预设的多模态大模型输出的文字回答内容。通过本发明能够增强模型的交互性和灵活性。

    基于多模态多形式统一的多轮图文理解与定位方法及装置

    公开(公告)号:CN118797562A

    公开(公告)日:2024-10-18

    申请号:CN202411282777.1

    申请日:2024-09-13

    Abstract: 本发明提供一种基于多模态多形式统一的多轮图文理解与定位方法及装置,涉及图像数据处理技术领域,方法包括:获取执行图文理解或定位任务的多模态数据,将多模态数据的待处理图像切分为多个图像块;确定多模态数据的待处理文本的文本特征以及图像块的图像序列特征;通过状态空间模型特征提取模块,对图像序列特征进行基于米字形结构方向的2D空间序列扫描,得到扫描序列特征;通过状态空间模型特征处理模块进行基于序列离散化的线性映射,得到离散序列特征后扫描合并,进而与文本特征融合得到多模态融合特征,用于执行图文理解或定位任务。通过本申请,解决神经网络模型在处理输入的长序列或高维度数据时,模型计算复杂度高的缺陷。

Patent Agency Ranking