-
公开(公告)号:CN119810146A
公开(公告)日:2025-04-11
申请号:CN202411780563.7
申请日:2024-12-05
Applicant: 安徽大学
IPC: G06T7/246 , G06V10/80 , G06V10/56 , G06V10/143 , G06V10/44 , G06N3/045 , G06N3/0464 , G06V10/25
Abstract: 本发明提供一种基于差异性信息的RGBT跟踪增强融合方法及系统,方法包括:输入数据处理;多模态ViT特征提取,其中,在ViT的特定层(如第4层、第7层、第10层)中集成ADEF模块,用于增强模态特定的特征表示。ADEF模块通过计算并减去跨模态融合注意力矩阵;特征差异增强融合,其中,在ViT的最后一层之后,应用FDEF模块。FDEF模块通过减去跨模态相似性矩阵,保留并放大每个模态的独特特征,进一步提高多模态融合的质量;目标状态预测。本发明解决了特征表示不纯净、融合策略不完善以及适应能力有限的技术问题。
-
公开(公告)号:CN118469022B
公开(公告)日:2024-10-29
申请号:CN202410919970.5
申请日:2024-07-10
Applicant: 安徽大学
IPC: G06N5/04 , G06N3/0455 , G06N3/0499 , G06F18/25 , G06V10/40 , G06V10/56 , G06V10/58 , G06F40/30 , G06V10/80 , G06V10/82 , G06N3/048
Abstract: 本发明公开了基于文本信息引导的多源遥感视觉问答方法及系统,方法包括:获得RGB特征、SAR特征以及原始文本特征;原始文本特征和RGB特征输入第一特征增强模型得到RGB增强特征,原始文本特征和SAR特征输入第二特征增强模型得到SAR增强特征;RGB增强特征、SAR增强特征以及原始文本特征均输入QGF模型得到图像融合特征;图像融合特征以及原始文本特征输入第一解码器得到融合文本特征的图像特征,将原始文本特征以及图像融合特征输入第二解码器得到融合图像特征的文本特征,经处理得到最终预测的遥感视觉问答任务答案;本发明的优点在于:提高遥感视觉问答任务回答的准确性。
-
公开(公告)号:CN118799335A
公开(公告)日:2024-10-18
申请号:CN202410787000.4
申请日:2024-06-18
Applicant: 安徽大学
IPC: G06T7/10 , G06N3/0464 , G06N3/045 , G06N3/09
Abstract: 本发明公开了一种医学图像分割方法及系统,方法包括:设计能够学习输入特征图的延展方向偏移量和垂直方向偏移量的动态条形卷积块;基于所设计的动态条形卷积块、可变形卷积块以及第一标准卷积块构建多头卷积块,采用局部‑宏观注意力机制自适应融合局部‑宏观特征以及来自多头卷积块的特征,获得具有各种形态结构的融合特征;利用多头卷积块以及局部‑宏观注意力机制构建U型分割网络,将医学图像输入所述U型分割网络,输出医学图像分割结果;本发明的优点在于:采样精度高、策略简单以及鲁棒性强。
-
公开(公告)号:CN118398154B
公开(公告)日:2024-09-10
申请号:CN202410804636.5
申请日:2024-06-21
Applicant: 安徽大学
Abstract: 本发明提供一种词语索引模型和医学报告的生成方法、系统、设备和介质。模型生成方法包括:获取医学影像集和对应的医学报告集,以及文本索引表和医学术语集;对医学报告集和医学术语集索引化处理,得到医学报告索引集和医学术语索引集;输入医学影像集至特征提取网络提取医学影像特征;将医学术语索引集和初始文本输入词嵌入网络获取文本特征和医学术语特征;将文本特征和医学术语特征、医学影像特征和医学术语特征输入融合网络得到对齐融合特征;输入对齐融合特征至预测网络得到预测文本序列集合;根据预测文本序列集合与索引化后的医学报告的差异度,更新模型参数,得到训练好的词语索引模型。提升了医学报告的准确度。
-
公开(公告)号:CN114626989B
公开(公告)日:2024-07-02
申请号:CN202210324405.5
申请日:2022-03-30
Applicant: 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) , 安徽大学
IPC: G06T3/4076 , G06T5/50 , G06T5/60 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0499 , G06N3/084 , G06N3/0455 , G06N3/0475 , G06N3/094 , G06N3/09
Abstract: 本发明提供一种基于域对抗转换的盲图像超分辨方法,包括:输入一张具有未知退化信息的低分辨率图像,使用退化图像编码器提取输入图像信息,为了避免退化信息估计存在的缺陷,引入域转换模块实现从退化数据域到干净数据域的转换,同时尽可能保留输入图像的自身信息。此外,由于域转换过程中不可避免损坏图像本身信息,为了恢复域转换过程中损失的图像信息,我们引入特征增强模块根据输入特征恢复部分细节信息,同时为了充分利用图像自身的信息,我们在特征上采用模块中设计了多尺度残差结构从不同感受野提取信息并使用选择性核方式融合多尺度特征。
-
公开(公告)号:CN118015045A
公开(公告)日:2024-05-10
申请号:CN202410153260.6
申请日:2024-02-02
Applicant: 安徽大学
IPC: G06T7/246 , G06V10/44 , G06V10/62 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了基于运动信息辅助的遥感单目标跟踪方法及系统,方法包括:构建带有挖掘目标长期运动特征的长时运动信息挖掘模块的目标跟踪模型;训练所述目标跟踪模型;测试训练好的目标跟踪模型,实时获取目标跟踪结果;根据当前目标跟踪结果,判断目标是否遮挡和丢失,若是,则估计目标下一帧的位置,输出目标下一帧的位置,若否,则直接输出当前目标跟踪结果;本发明的优点在于:不容易丢失跟踪对象,鲁棒性强,具有全局表示能力。
-
公开(公告)号:CN117711421A
公开(公告)日:2024-03-15
申请号:CN202311339818.1
申请日:2023-10-17
Applicant: 安徽大学
IPC: G10L21/0272 , G10L17/04 , G10L25/18 , G10L25/27
Abstract: 本发明公开一种基于协调简单注意力机制的两阶段语音分离方法,获取说话者的视频数据集以及对应音频数据集,构造混合音频以及音频频谱图;构建基于协调简单注意力机制的两阶段语音分离模型;两阶段语音分离模型语音分离的推理过程中,先将预测的掩模与输入的频谱图相乘来预测语音频谱图,然后使用逆短时傅里叶反变换将其转换为最终分离的语音信号。本发明第一阶段先粗分离,第二阶段精细分离来去除第一阶段分离后音频存在其他音频噪声问题;针对分离后的音频存在部分音频片段缺失问题,本发明使用恢复融合模块来恢复缺失的音频片段;本发明提出协调简单注意力机制可以使音频和对应视觉信息更好地相关关联,以实现更精确的分离结果。
-
公开(公告)号:CN114663470B
公开(公告)日:2024-03-15
申请号:CN202210094864.9
申请日:2022-01-26
Applicant: 安徽大学
IPC: G06T7/246 , G06T7/11 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种软选择的自适应跨模态视觉跟踪方法,属于计算机视觉技术领域,方法包括:从跨模态跟踪数据集中随机抽取一个测试序列;将测试序列作为跟踪网络的输入,对测试序列中目标进行跟踪;跟踪网络包括特征提取网络、软性选择模块、模型预测器和IoU网络,特征提取网络的输入为测试序列、输出与软性选择模块连接,软性模块的输出分别与模型预测器和IoU网络连接,软性选择模块用于自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图。本发明通过设置软性选择模块来自适应预测各模态对应的重要性权重解决现有技术中跨模态跟踪中不同模态切换导致跟踪器性能下降的问题。
-
公开(公告)号:CN117671582A
公开(公告)日:2024-03-08
申请号:CN202311542794.X
申请日:2023-11-15
Applicant: 安徽大学
IPC: G06V20/52 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/74 , G06V10/52
Abstract: 本发明公开了一种多尺度跨平台行人重识别方法,包括:获取行人图片数据集,将行人图片数据集划分为训练集和测试集;采用ColorJitter函数,数据增强行人图片数据集中图像;建立初始跨平台行人重识别网络,将训练集中的图片分批输入初始跨平台行人重识别网络中,输出分类结果;通过总损失函数计算分类结果的损失,并利用梯度下降算法更新,以及通过反向传播优化初始跨平台行人重识别网络,获取优化跨平台行人重识别网络;将测试集输入至优化跨平台行人重识别网络中,获取识别精度;判断识别精度,若识别精度不满足要求,则重复训练过程,直至满足精度要求。通过本发明公开的多尺度跨平台行人重识别方法,能够用于不同平台的行人重识别。
-
公开(公告)号:CN113658227B
公开(公告)日:2024-02-20
申请号:CN202110987298.X
申请日:2021-08-26
Applicant: 安徽大学
IPC: G06T7/246 , G06V10/764 , G06V10/74 , G06V10/56 , G06V10/62
Abstract: 一种基于协同低秩图模型的RGBT目标跟踪方法及系统,属于计算机视觉技术领域,解决现有技术的基于图模型的目标跟踪算法中相似性求解存在的可靠性低以及跟踪结果噪声高的问题;本发明的技术方案基于协同异质图模型的RGBT目标跟踪算法学习可靠的目标特征表示,改进基于图学习的方法中求解相似性矩阵的计算方式,学习到更可靠的相似性值,并且采用特征分解模型对原始输入特征进行分解,抑制噪声对跟踪结果的影响,同时对不同模态之间的异质性和协同性进行建模,有效利用不同模态的特征。
-
-
-
-
-
-
-
-
-