-
公开(公告)号:CN119559548A
公开(公告)日:2025-03-04
申请号:CN202411605976.1
申请日:2024-11-12
Applicant: 哈尔滨工业大学
IPC: G06V20/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/048
Abstract: 本发明公开了一种基于自然语言描述和协同全局‑局部视角学习的目标追踪方法,所述方法包括如下步骤:步骤1、输入视频帧的特征提取与初步处理;步骤2、全局和局部分支视觉特征的提取;步骤3、多模态特征对齐实现信息互补和一致性表达;步骤4、对称注意力操作选择重要信息;步骤5、通过预测模块估计目标的位置;步骤6、追踪模型优化。本发明通过全局与局部特征的协同建模、多模态对齐机制以及对称注意力的特征增强,显著提升了目标追踪的精度和鲁棒性,解决了现有技术中全局与局部信息融合不充分、视觉与语言特征对齐能力不足的问题。本发明能够在复杂场景和自然语言描述的条件下精准定位目标,并在多个具有自然语言标注的目标追踪数据集上展现了卓越的性能。
-
公开(公告)号:CN119540513A
公开(公告)日:2025-02-28
申请号:CN202411664240.1
申请日:2024-11-20
Applicant: 哈尔滨工业大学
IPC: G06V10/22 , G06T3/4007 , G06V10/80 , G06T3/4038 , G06V10/74 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于注意力机制和自蒸馏的手持器械细粒度定位方法,所述方法通过引入特征融合模块、双重注意力模块以及自蒸馏机制,解决了现有技术中多尺度特征融合不足、器械边界模糊和干扰区域识别不准确的问题。具体而言,特征融合模块则对不同尺度的特征图进行有效融合,以获取更为精确的全局与局部信息;双重注意力模块通过结合通道注意力与位置注意力,进一步增强对复杂手术场景中器械特征的捕捉能力;自蒸馏机制则通过跨层知识传播提高定位模型的精度,尤其是在保持轻量化模型结构的前提下,显著优化了定位性能。本发明不仅提升了模型对复杂语义关系的理解能力,还在器械的细节定位和干扰区域的准确识别方面取得了显著进步。
-
公开(公告)号:CN117314959A
公开(公告)日:2023-12-29
申请号:CN202311186980.4
申请日:2023-09-14
Applicant: 哈尔滨工业大学
IPC: G06T7/246 , G06V20/40 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 一种基于长短时上下文解耦和自然语言查询的目标跟踪方法,所述方法包括如下步骤:步骤一、使用在ImageNet数据集上预训练的ResNet网络和Transfomer结构的编码器提取视频帧级特征;步骤二、拼接视频帧级特征获得视频级特征;步骤三、使用文本编码器获得文本查询特征;步骤四、通过短时上下文匹配分支捕捉动态上下文信息;步骤五、通过长时上下文感知分支捕捉静态上下文信息;步骤六、通过长短时调制模块自适应地调控所需的长时或短时上下文信息;步骤七、通过预测模块估计目标的位置;步骤八、模型优化。较现有的基于自然语言查询的目标跟踪方法,本发明的目标定位的准确度取得了显著提高,展现了良好的跟踪鲁棒性。
-
公开(公告)号:CN113963022B
公开(公告)日:2023-08-18
申请号:CN202111221017.6
申请日:2021-10-20
Applicant: 哈尔滨工业大学
IPC: G06T7/246 , G06N3/096 , G06N3/0464
Abstract: 本发明公开了一种基于知识蒸馏的多出口全卷积网络的目标跟踪方法,所述方法包括如下步骤:步骤一、构建基于知识蒸馏的多出口全卷积网络;步骤二、基于知识蒸馏的多出口训练。本发明提出了一种基于知识蒸馏的多出口全卷积结构用于基于分类的跟踪,凭借知识蒸馏的优势,鼓励前序出口模仿学习后续出口的概率输出,从而提高前序出口的判别能力。本发明通过利用多个RoIAlign层来提取不同尺度的区域特征,并在每个出口融合以上区域特征来提高判别能力。本发明使用不同种类的注意力模块来捕获不同的目标特定信息,提高了目标与背景及其干扰物区分能力。本发明在取得更高的跟踪精度的同时,还拥有相对较快的处理速度。
-
公开(公告)号:CN115436002A
公开(公告)日:2022-12-06
申请号:CN202211295961.0
申请日:2022-10-21
Applicant: 哈尔滨工业大学重庆研究院
Abstract: 本发明提出了一种用于测试燃料电池动力系统的风洞测试平台,涉及燃料电池动力系统技术领域。一种用于测试燃料电池动力系统的风洞测试平台,其包括风洞装置、信息采集模块和控制模块,信息采集模块与控制模块连接。风洞装置用于为燃料电池动力系统提供可调节风速的连续气流。控制模块用于调整燃料电池动力系统的物理参数。基于物理参数,信息采集模块用于采集风洞装置的风速信息和燃料电池动力系统的测试信息,并将风速信息和测试信息传输至控制模块。控制模块还用于根据风速信息和测试信息进行数据分析和反馈。从而实现了测试在不同风速条件下燃料电池动力系统的稳定性和压力及其他物理参数的目的。
-
公开(公告)号:CN113963022A
公开(公告)日:2022-01-21
申请号:CN202111221017.6
申请日:2021-10-20
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于知识蒸馏的多出口全卷积网络的目标跟踪方法,所述方法包括如下步骤:步骤一、构建基于知识蒸馏的多出口全卷积网络;步骤二、基于知识蒸馏的多出口训练。本发明提出了一种基于知识蒸馏的多出口全卷积结构用于基于分类的跟踪,凭借知识蒸馏的优势,鼓励前序出口模仿学习后续出口的概率输出,从而提高前序出口的判别能力。本发明通过利用多个RoIAlign层来提取不同尺度的区域特征,并在每个出口融合以上区域特征来提高判别能力。本发明使用不同种类的注意力模块来捕获不同的目标特定信息,提高了目标与背景及其干扰物区分能力。本发明在取得更高的跟踪精度的同时,还拥有相对较快的处理速度。
-
公开(公告)号:CN113947618B
公开(公告)日:2023-08-29
申请号:CN202111222510.X
申请日:2021-10-20
Applicant: 哈尔滨工业大学
IPC: G06T7/246 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于调制器的自适应回归跟踪方法,所述方法包括如下步骤:步骤一、设计基于注意力的时空上下文网络,生成与时空上下文对应的仿射参数;步骤二、设计轨迹网络,产生与轨迹对应的仿射参数;步骤三、将步骤一和步骤二产生的两种参数融入到通用回归网络的各层参数中,自适应地调整通用回归网络的参数,使其对特定目标具有较高的响应。相比于现有技术,本发明具有如下优点:模型在跟踪过程中不需要效率低下的微调过程;上下文预测网络对过去帧中相关的重要时空背景进行编码,有助于从背景中区分目标;轨迹为当前帧中目标的定位提供了必要的先验知识。
-
公开(公告)号:CN115965652A
公开(公告)日:2023-04-14
申请号:CN202211224736.8
申请日:2022-10-09
Applicant: 哈尔滨工业大学
IPC: G06T7/246 , G06T9/40 , G06V10/764 , G06V10/77 , G06V10/80 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于四叉树胶囊的深度回归跟踪方法,所述方法包括如下步骤:一、给定当前帧的搜索区域,采用在ImageNet上预训练的VGG‑16网络的conv4‑3和conv5‑3两个特征层作为特征提取器分别提取底层和高层语义表示;二、通过四叉树胶囊模块构造空间胶囊;三、通过多光谱姿态矩阵注意力构造时空胶囊;四、时序胶囊的局部位移;五、将时序胶囊的姿态矩阵压平,并将它们传递给解码器进行解码。本发明利用搜索区域作为输入,提出利用四叉树胶囊架构构建目标与其上下文之间的时空关系。与现有基于胶囊网络的跟踪器相比,在鲁棒跟踪结果的同时,运行速度达到了43FPS,使得基于胶囊网络的跟踪器首次达到了实时处理。
-
公开(公告)号:CN113971686A
公开(公告)日:2022-01-25
申请号:CN202111250528.0
申请日:2021-10-26
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于背景修复和胶囊网络的目标跟踪方法,所述方法包括如下步骤:一、构建背景胶囊表示;二、构建目标胶囊;三、设计背景‑目标胶囊路由算法,获得背景‑目标胶囊表示;四、将背景‑目标路由胶囊的大小调整为36×36×64,然后通过3个反卷积操作将这些特征进行放大处理,最后得到与输入大小相同的288×288×1的背景响应图,通过对其进行取反操作,得到目标的响应图;五、将背景胶囊表示通过一个反卷积层调整到36×36×64,之后通过3个反卷积层,每层对应的核大小为3×3,逐步将36×36×64大小的特征放大到288×288×3,生成3通道的背景修复图像。本发明将目标跟踪的关注点从目标自身转移至对目标与背景差异的刻画,规避了单一外观模型无法应对目标各种外观变化的缺陷。
-
公开(公告)号:CN113936040A
公开(公告)日:2022-01-14
申请号:CN202111204089.X
申请日:2021-10-15
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于胶囊网络和自然语言查询的目标跟踪方法,所述方法包括如下步骤:一、给定当前帧的搜索区域和相应的文本查询,将搜索区域送入视觉编码器提取视觉的特征表示,将文本查询送入文本编码器提取文本的特征表示;二、利用视觉编码器提取的视觉的特征表示构建视觉胶囊,利用文本编码器提取的文本的特征表示构建文本胶囊,在视觉胶囊和文本胶囊的基础上设计视觉‑文本路由模块和文本‑视觉路由模块;三、将视觉‑文本路由模块和文本‑视觉路由模块的输出进行串联并通过解码器生成目标的响应图。本发明在仅利用自然语言进行初始化跟踪器,就能接近其它方法,同时利用自然语言查询和初始边界框进行初始化的结果,具有良好的鲁棒性。
-
-
-
-
-
-
-
-
-