-
公开(公告)号:CN119763128A
公开(公告)日:2025-04-04
申请号:CN202411643366.0
申请日:2024-11-18
Applicant: 苏州大学
Abstract: 本发明涉及图像处理技术领域,尤其是指一种基于图像文本对的图像目标计数方法及装置,包括:构建目标计数模型,包括文本编码器、图像编码器、文本图像增强模块和解耦头;将原始图像和目标类别的文本输入至目标计数模型,输出原始图像中属于目标类别的若干个体的预测点的坐标,进而得到属于目标类别的个体的总数。本发明保留了图像的局部细节信息,增强了模型对局部信息的感知能力,进一步结合多头自注意力机制提取的全局信息,有效提高了模型对目标的识别能力,提高了对目标计数的准确性。
-
公开(公告)号:CN119762839A
公开(公告)日:2025-04-04
申请号:CN202411659283.0
申请日:2024-11-20
Applicant: 苏州大学
IPC: G06V10/764 , G06V10/44 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于多层内卷字典学习网络的图像分类方法及系统,属于图像处理技术领域。包括:对获取到的图像数据集进行处理,得到处理数据集;对处理数据集的图像样本进行特征提取,得到每个图像样本的特征样本;将每个特征样本用子字典线性表示,获得字典矩阵;根据字典矩阵构建优化数学模型,通过求解优化数学模型得到表示系数矩阵;根据特征样本、字典矩阵和表示系数矩阵计算每类通道子字典的残差值,根据残差值预测图像样本的标签,进而实现图像分类。本发明解决了由非端到端架构引发的信息丢失问题,并针对未充分考虑类别间特异性差异所引发的分类性能不足进行了优化。
-