基于单字连接的文档图像中文字符检测方法

    公开(公告)号:CN114708591B

    公开(公告)日:2024-10-15

    申请号:CN202210407860.1

    申请日:2022-04-19

    Applicant: 复旦大学

    Inventor: 周钊 郑莹斌 金城

    Abstract: 本发明公开了一种基于单字连接的文档图像中文字符检测方法;该方法包括:给定一张或多张自然场景图像输入,区别于使用锚点的方法,直接通过分割的方法得到单个字的中心点和文字宽高。得到单字的检测结果后,通过预测连接的方法将单字进行拼接,得到最终检测结果。本发明可应用于任意场景下的中文字符定位,文档资料的字符定位,针对整文本行检测或单字检测都有较好的效果。

    一种用于语义分割的高效图像到激光雷达知识迁移方法

    公开(公告)号:CN118608784A

    公开(公告)日:2024-09-06

    申请号:CN202410689778.1

    申请日:2024-05-30

    Applicant: 复旦大学

    Abstract: 本发明公开了一种用于语义分割的高效图像到激光雷达知识迁移方法,其利用包括视觉基础模型教师网络、轻量级学生网络和块到点多阶段知识蒸馏网络的ELiTe模型实现,具体步骤如下:轻量级学生网络与视觉基础模型教师网络分别处理激光雷达与对应图像输入,并提取多阶段特征以表示场景信息;在块到点多阶段知识蒸馏网络中,利用块到点多阶段知识蒸馏从教师网络中获取图像领域知识,并将其转移到学生网络中,从而丰富其语义信息;其中:教师网络通过参数高效微调进行域自适应微调,并由基于分割一切模型的伪标签生成算法SAM‑PLG生成的伪标签进行监督。本发明的高效知识迁移在公开测试基准上产生了优异结果,优于实时推理模型。

    基于多尺度特征聚合的场景图像文字检测方法

    公开(公告)号:CN115965975A

    公开(公告)日:2023-04-14

    申请号:CN202211149100.1

    申请日:2022-09-21

    Abstract: 本发明公开了一种基于多尺度特征聚合的场景图像文字检测方法;其包括:提取不同尺度文本图像特征表示,同时获取文字嵌入表示;将多尺度文本图像特征表示聚合后输入堆叠的基于Transformer结构的编码器中,获得加强的多尺度图像特征表示;利用加强的多尺度图像特征表示进行文字嵌入表示的更新;初始化一组查询向量,将加强的多尺度图像特征表示恢复到二维图像特征,将查询向量、二维图像特征和更新的文字嵌入表示同输入解码器中,得到更新的查询向量,再对更新的查询向量与文字嵌入表示进行计算得到文字掩码,最后后处理得到文字检测结果。本发明方法用于场景文本检测准确度高,后处理简单,检测性能优越。

    一种跨模态图像-文本关联异常检测方法

    公开(公告)号:CN113159071B

    公开(公告)日:2022-06-21

    申请号:CN202110423224.3

    申请日:2021-04-20

    Applicant: 复旦大学

    Inventor: 金城 王尚尚 吴渊

    Abstract: 本发明属于计算机多媒体技术领域,具体为一种跨模态图像‑文本关联异常检测方法。本发明通过以下几个步骤来判断图像‑文本对的关联是否异常:1)图像多标签分类阶段,将图像输入基于CNN‑RNN的编码解码器,准确提取图像的标签信息;2)文本多标签分类阶段,将文本输入基于BiLSTM的网络,得到文本的标签信息;3)关联异常检测阶段,融合图像和文本的分类结果,判断图像‑文本对的关联是否异常。本发明提出的方法能够准确实现对图像‑文本对关联异常的检测,并且模型具有较强的鲁棒性。

    一种基于多流融合图卷积网络的行为识别方法

    公开(公告)号:CN114187653A

    公开(公告)日:2022-03-15

    申请号:CN202111356801.8

    申请日:2021-11-16

    Abstract: 本发明属于行为识别技术领域,具体为一种基于多流融合图卷积网络的行为识别方法。本发明主要通过提取并融合多类行为信息进行行为识别,分为三个阶段进行:数据预处理、特征提取、特征融合。在数据预处理阶段,提出三种骨架规范化措施,减少人体位置、摄像机视角和人体与摄像机距离等因素对人体骨架数据表示的影响;在特征提取阶段,构建骨架的全局连接图,直接学习远距离关节点之间的相互关系;在特征融合阶段,分两阶段来融合三类信息的特征。本发明针所提出的方法更加有效的利用了多类行为的互补信息,提出的骨架规范化措施使得人体骨架的表示具有仿射不变性,降低了网络的训练难度,在公开数据集上取得了较好的结果。

    一种基于对抗学习的植物叶片图像细分类方法

    公开(公告)号:CN113159171A

    公开(公告)日:2021-07-23

    申请号:CN202110423483.6

    申请日:2021-04-20

    Applicant: 复旦大学

    Inventor: 金城 靳璐瑞 吴渊

    Abstract: 本发明属于图像分类技术领域,具体为一种基于对抗学习的植物叶片图像细分类方法。本发明通过将植物叶片图像多次分割打乱之后作为样本训练植物叶片图像细分类模型;最后将植物叶片图像经过同样的多重打乱操作之后输入到训练好的网络模型,计算并输出植物图片的细分类结果。相比于现有的植物细分类方法,本发明所提出的方法可以提取图片的多个粒度的特征,另外引入的全局上下文块可以融合图像的全局和局部特征,提高了网络融合多个粒度的特征的能力。

    一种分布式大规模视频流处理系统

    公开(公告)号:CN106982356B

    公开(公告)日:2020-12-22

    申请号:CN201710226293.9

    申请日:2017-04-08

    Applicant: 复旦大学

    Abstract: 本发明属于数字图像处理、分布式计算技术领域,具体为一种分布式大规模视频流处理系统。本发明建立了一种分布式大规模视频流处理的模型,并根据此模型提出分布式视频流处理系统。本发明用多机集群的方式对大规模视频流协同处理,用多台机器进行视频流采集,提高吞吐量;主要提供两种接口,一种针对视频不可分割(帧与帧之间前后依赖)的情形,如行人跟踪等,另一种是视频可以分割的情形,如行人检测等。另外,本发明提供了比较科学合理的资源监控方法(主要是CPU资源和内存资源),对于集群的资源扩展提供了依据。此外,引入CPU时间占用率,提出CPU时间占用率来衡量集群的利用率,更加直观和科学。

    一种基于骨架姿态的人物识别方法

    公开(公告)号:CN111738095A

    公开(公告)日:2020-10-02

    申请号:CN202010471056.0

    申请日:2020-05-28

    Applicant: 复旦大学

    Inventor: 吴渊 金城 文静

    Abstract: 本发明属于统计模式识别与图像处理技术领域,具体为一种基于骨架姿态的人物识别方法。本发明分为离线训练阶段,离线构造注册集阶段和在线识别阶段。在离线训练阶段,准备模型训练集,对模型进行训练。在离线构造注册集阶段,将用于构造注册集的骨架输入训练好的模型,得到骨架姿态特征,再将特征归一化得到注册集特征。在在线识别阶段,将待识别骨架输入训练好的模型,得到待识别的骨架姿态特征,并对特征进行归一化,然后计算其和各注册集特征之间的相似度,最后取相似度最大的注册集特征的人物id作为检索结果。本发明可以基于人体的骨架姿态进行人物识别,扩展了智能视频监控中人物识别的方法。

    一种进行广告检测的视频拷贝检测方法

    公开(公告)号:CN103605666B

    公开(公告)日:2017-01-11

    申请号:CN201310513718.6

    申请日:2013-10-28

    Applicant: 复旦大学

    Abstract: 本发明属于计算机视频处理技术领域,具体为一种进行广告检测的视频拷贝检测方法;其先采用音频匹配的方法检测出候选的匹配广告片段,然后采用图像匹配的方法去验证候选匹配片段,实现视频拷贝检测。本发明的有益效果在于:本发明方法采用把图像和音频特征二者相结合的算法,高效;其能够处理大规模视频,检测过程快速,结果更加精确。

    融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法

    公开(公告)号:CN102662936B

    公开(公告)日:2015-01-07

    申请号:CN201210100424.6

    申请日:2012-04-09

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。

Patent Agency Ranking