-
公开(公告)号:CN114998859B
公开(公告)日:2024-09-10
申请号:CN202210422626.6
申请日:2022-04-21
申请人: 湖南师范大学
IPC分类号: G06V20/58 , G06V20/62 , G06V30/146 , G06V30/18 , G06V30/19 , G06N3/0464 , G06N3/084
摘要: 本申请涉及交通目标检测与识别的技术领域,本申请公开了一种交通文本识别方法、装置、设备以及计算机可读存储介质,该方法包括利用由FPN网络和ResNet50网络共同构建的主干网络模型对待识别图像进行特征运算获得特征图,对待识别图像进行SIFT特征算法运算,获得特征描述向量;对特征图进行交通文本所在区域的检测识别,获得对交通文本所在位置区域进行标记的精细特征图;将精细特征图和特征描述向量进行特征融合,获得融合特征;对融合特征进行交通文本所在区域检测识别,确定待识别图像中交通文本所在位置区域,以便对位置区域内的交通文本进行语义识别。本申请获取交通文本提供可靠的数据信息,有助于提升汽车的行驶安全。
-
公开(公告)号:CN117593733A
公开(公告)日:2024-02-23
申请号:CN202311558676.8
申请日:2023-11-21
申请人: 湖南师范大学
IPC分类号: G06V20/62 , G06V30/16 , G06V30/18 , G06V30/19 , G06V30/146 , G06V10/82 , G06N3/0464
摘要: 本发明公开了一种交通文本检测与识别方法、装置、设备及存储介质,涉及智能交通领域及交通文本检测领域,包括:获取包含交通文本的待处理图像,对待处理图像进行图像预处理操作得到预处理后图像;通过第一预设特征提取操作对预处理后图像进行特征提取,得到全局特征图;利用渐进尺度扩展算法对全局特征图进行文本区域检测得到初始文本区域,对初始文本区域执行第二预设特征提取操作得到局部特征图;基于全局特征图、局部特征图获取融合特征图,将融合特征图输入至文本识别模块进行文本识别操作。本发明通过结合交通场景图像的全局特征和文字候选区域的局部特征进行文本检测与识别,在保证实时性的同时具有较高的检测精度和识别准确度。
-
公开(公告)号:CN117253222A
公开(公告)日:2023-12-19
申请号:CN202311245057.3
申请日:2023-09-26
申请人: 湖南师范大学
IPC分类号: G06V20/62 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/80 , G06N3/0464 , G06N3/08
摘要: 本发明公开了基于多级信息融合机制的自然场景文本检测方法和装置,涉及计算机与人工智能领域,其中方法包括:利用主干网络对图像的特征进行提取,并对提取的所述特征进行多模块级联特征增强处理,得到含有图像全局上下文注意力信息和语义分割信息的融合特征图;根据所述融合特征图,利用Faster RCNN网络得到含有分类得分数值和回归参数的候选框;根据所述候选框的中心坐标与目标文本边界标注框中心线区域的关系对所述候选框进行初步筛选,得到文本候选框;根据所述分类得分数值,通过计算得到所述文本候选框的综合数值;根据所述综合数值,对所述文本候选框进行筛选得到检测结果;本发明利用上述方法对图像进行文本检测,提高了文本检测的精确度。
-
公开(公告)号:CN113780486B
公开(公告)日:2022-02-11
申请号:CN202111344175.0
申请日:2021-11-15
申请人: 湖南师范大学
IPC分类号: G06K9/62 , G06V10/80 , G06V10/774
摘要: 本发明公开了一种视觉问答方法、装置及介质,应用于深度学习领域,获取目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征,进而将文字特征和图像特征输入至Transformer的模型得到融合特征,最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型,加快提取速度,节省计算成本,减少运算参数量,将文字特征和图像特征进行聚合,使来自图像特征与文本特征的信息达到更好的交互,提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。
-
公开(公告)号:CN113780486A
公开(公告)日:2021-12-10
申请号:CN202111344175.0
申请日:2021-11-15
申请人: 湖南师范大学
IPC分类号: G06K9/62
摘要: 本发明公开了一种视觉问答方法、装置及介质,应用于深度学习领域,获取目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征,进而将文字特征和图像特征输入至Transformer的模型得到融合特征,最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型,加快提取速度,节省计算成本,减少运算参数量,将文字特征和图像特征进行聚合,使来自图像特征与文本特征的信息达到更好的交互,提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。
-
公开(公告)号:CN115909408A
公开(公告)日:2023-04-04
申请号:CN202211535684.6
申请日:2022-11-30
申请人: 湖南师范大学
IPC分类号: G06V40/10 , G06V10/44 , G06V10/42 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08
摘要: 本发明提供了一种基于Transformer网络的行人重识别方法及装置,是通过将原始图像划分为两个分支;将两个分支分别进行线性映射,得到第一序列和第二序列;在第一序列和第二序列中加入新的参数,生成第三序列和第四序列;将第三序列和第四序列放入Transformer网络中对应的不同层级进行特征提取,从而获得第一全局特征和第一局部特征;将第一全局特征和第一局部特征进行特征融合,获得第二全局特征和第二局部特征;对第二局部特征处理,将处理后的第二局部特征和第二全局特征分别放入Transformer网络特定的层级进行特征提取,将提取后的特征分别根据对应的损失函数计算整体损失。该方法可以有效的提高行人重识别任务精确度和鲁棒性。该装置同样具有上述有益效果。
-
公开(公告)号:CN114581671A
公开(公告)日:2022-06-03
申请号:CN202210435267.8
申请日:2022-04-24
申请人: 湖南师范大学
IPC分类号: G06V10/26 , G06V10/25 , G06V10/82 , G06V10/764 , G06V10/774 , G06N3/04 , G06N3/08 , G06K9/62
摘要: 本发明公开了一种图像的语义分割方法、装置及计算机可读存储介质,涉及语义分割领域,该方法包括:将原始图像切分成各个预设尺寸的图像块以及将原始图像下采样到预设尺寸的粗糙图像;对于每个图像块,将所得粗糙图像和图像块一同输入到语义分割模型中,得到各个图像块的语义分割结果;根据图像块在原始图像上的位置将图像块的语义分割结果进行拼接获得最终分割结果。其中语义分割模型包含池化分支和空间信息提取分支,能够使得各个图像块与粗糙图像之间建立起联系,避免图像块的语义分割结果出现歧义,进而避免最后拼接成的图像中的信息与原始图像中的信息不一致,准确地把属于某个类别的像素点归类到该类别中,最终提升图像语义分割的准确度。
-
公开(公告)号:CN114882471B
公开(公告)日:2024-09-06
申请号:CN202210503666.3
申请日:2022-05-10
申请人: 湖南师范大学
IPC分类号: G06V20/58 , G06V20/62 , G06V30/146 , G06V30/16 , G06V30/168 , G06V30/18 , G06V30/19 , G06V10/766 , G06V10/82 , G06N3/0464
摘要: 本申请公开了一种交通文本检测方法、装置、设备及介质,涉及人工智能技术领域,所述方法包括:基于预设的水平卷积核与垂直卷积核对特征图进行特征提取并对提取后的特征图进行特征融合;基于不同宽高比的锚定框对融合后的特征图进行处理;对处理后的目标提议框进行池化与回归运算,通过CBAM模块提取回归后的提议框的通道与空间注意力特征图,对提取后的特征图进行非极大值抑制运算得到目标预测框。本申请基于交通文本的形状与大宽高比的特性,提出对交通文本进行水平和垂直方向的特征提取;提出几种不同宽高比的锚定框,提高了检测准确度;此外,提出了对空间和通道信息进行非极大值抑制运算处理,节省了检测时间并有利于产生更加稳定的检测结果。
-
公开(公告)号:CN114581671B
公开(公告)日:2024-09-06
申请号:CN202210435267.8
申请日:2022-04-24
申请人: 湖南师范大学
IPC分类号: G06V10/26 , G06V10/25 , G06V10/82 , G06V10/764 , G06V10/774 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种图像的语义分割方法、装置及计算机可读存储介质,涉及语义分割领域,该方法包括:将原始图像切分成各个预设尺寸的图像块以及将原始图像下采样到预设尺寸的粗糙图像;对于每个图像块,将所得粗糙图像和图像块一同输入到语义分割模型中,得到各个图像块的语义分割结果;根据图像块在原始图像上的位置将图像块的语义分割结果进行拼接获得最终分割结果。其中语义分割模型包含池化分支和空间信息提取分支,能够使得各个图像块与粗糙图像之间建立起联系,避免图像块的语义分割结果出现歧义,进而避免最后拼接成的图像中的信息与原始图像中的信息不一致,准确地把属于某个类别的像素点归类到该类别中,最终提升图像语义分割的准确度。
-
公开(公告)号:CN114998859A
公开(公告)日:2022-09-02
申请号:CN202210422626.6
申请日:2022-04-21
申请人: 湖南师范大学
摘要: 本申请涉及交通目标检测与识别的技术领域,本申请公开了一种交通文本识别方法、装置、设备以及计算机可读存储介质,该方法包括利用由FPN网络和ResNet50网络共同构建的主干网络模型对待识别图像进行特征运算获得特征图,对待识别图像进行SIFT特征算法运算,获得特征描述向量;对特征图进行交通文本所在区域的检测识别,获得对交通文本所在位置区域进行标记的精细特征图;将精细特征图和特征描述向量进行特征融合,获得融合特征;对融合特征进行交通文本所在区域检测识别,确定待识别图像中交通文本所在位置区域,以便对位置区域内的交通文本进行语义识别。本申请获取交通文本提供可靠的数据信息,有助于提升汽车的行驶安全。
-
-
-
-
-
-
-
-
-