-
公开(公告)号:CN118608385A
公开(公告)日:2024-09-06
申请号:CN202410702281.9
申请日:2024-06-02
Applicant: 复旦大学
IPC: G06T3/4053 , G06T3/4046 , G06V10/80 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明属于计算机图像处理领域,具体为一种具有语义引导的高效场景文本图像超分辨率方法。本发明方法包括:将图像输入CNN编码器和特征融合模块,准确提取图像的视觉特征,将视觉特征与高级指导信息进行融合,输入到顺序残差块,以像素重组的方式生成超分辨率图像;其中:高级指导信息是通过先将图像输入文本识别模型并进行自注意力计算,得到语义特征,再将语义特征输入到由自注意力和交叉注意力机制组成的视觉‑语义对齐模块中通过交叉注意力机制进行对齐得到;本发明提出的方法能够高效重建超分辨率场景文本图像,并且模型以更少的计算成本实现了优异的性能。
-
公开(公告)号:CN118053003A
公开(公告)日:2024-05-17
申请号:CN202410152356.0
申请日:2024-02-03
Applicant: 复旦大学 , 上海兑观信息科技技术有限公司
Abstract: 本发明公开了一种基于多颜色空间的图像上色方法;该方法包括:利用编码器对灰度图像进行特征提取,获取不同尺度的图像特征;颜色空间建模,初始化颜色查询向量并将其与多尺度图像特征输入基于Tramsformer的解码器中,对颜色查询向量进行细化调整;将细化后的颜色查询向量与最大尺度图像特征输入颜色映射模块中,获取到单颜色空间下灰度图像对应的颜色通道;重复多次颜色空间的建模操作,获取到多颜色空间下灰度图像对应的颜色通道;将灰度图像以及多颜色空间对应的颜色通道输入颜色空间互补网络中,最后得到RGB彩色图像。本发明通过更全面地考虑图像中的颜色信息,并通过更精细的颜色建模提高了上色效果的质量。
-
公开(公告)号:CN115965975A
公开(公告)日:2023-04-14
申请号:CN202211149100.1
申请日:2022-09-21
Applicant: 复旦大学 , 上海兑观信息科技技术有限公司
IPC: G06V30/146 , G06V30/18 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多尺度特征聚合的场景图像文字检测方法;其包括:提取不同尺度文本图像特征表示,同时获取文字嵌入表示;将多尺度文本图像特征表示聚合后输入堆叠的基于Transformer结构的编码器中,获得加强的多尺度图像特征表示;利用加强的多尺度图像特征表示进行文字嵌入表示的更新;初始化一组查询向量,将加强的多尺度图像特征表示恢复到二维图像特征,将查询向量、二维图像特征和更新的文字嵌入表示同输入解码器中,得到更新的查询向量,再对更新的查询向量与文字嵌入表示进行计算得到文字掩码,最后后处理得到文字检测结果。本发明方法用于场景文本检测准确度高,后处理简单,检测性能优越。
-
公开(公告)号:CN118608836A
公开(公告)日:2024-09-06
申请号:CN202410690190.8
申请日:2024-05-30
Applicant: 复旦大学
IPC: G06V10/764 , G06V10/80 , G06V10/774 , G06V10/82 , G06N3/09
Abstract: 本发明属于计算机多媒体技术领域,具体为一种细粒度场景图像分类的方法。本发明基于一种新的多模态特征融合方法,也称为模态无关适配器MAA使模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中进行预先设置。具体而言,本发明基于多层感知机MLP来消除各个模态在分布上的差异消除了不同模态之间的数据分布差异,然后使用了模态无关的Transformer编码器来进行语义级别的特征融合,再结合平均池化池化操作和全连接层实现细粒度场景图像分类。本发明提出的方法能够准确地实现细粒度场景图像分类,而且该模型可以很好地适应于新模态并进一步提高其性能。
-
公开(公告)号:CN118247796A
公开(公告)日:2024-06-25
申请号:CN202410188396.0
申请日:2024-02-20
Applicant: 复旦大学 , 上海兑观信息科技技术有限公司
IPC: G06V30/19 , G06V30/196 , G06V30/28 , G06V30/413 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于深度范例的中文文本识别方法;该方法主要包含两个部分:范例查询阶段与范例重排序阶段。范例查询阶段主要用于预测识别结果并且定位每一个文字在图像上的位置,同时使用训练集组建成范例库,该范例库包含了每个文字的全局特征和局部特征;范例重排序阶段,主要针对范例查询阶段识别错误的情况,利用在范例库中检索与重排序得到更加准确的结果,纠正形近字的识别错误。本发明通过两个阶段的结合,成功提升了中文文本识别的准确性和效率,为中文识别领域的技术发展贡献了有力的解决方案。
-
-
-
-