-
公开(公告)号:CN117786054A
公开(公告)日:2024-03-29
申请号:CN202311267037.6
申请日:2023-09-27
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/383 , G06F16/583 , G06F16/58 , G06N3/0455 , G06N3/042 , G06N5/04
Abstract: 本发明提供一种基于提示学习的生成式文本视觉问答方法及系统,其中的方法包括:对以文本为中心的多模态采样数据进行预处理,以提取所述多模态采样数据中每种模态的特征作为训练数据;利用所述训练数据训练基于提示学习的生成式文本视觉问答模型,其中包括:利用Transformer编码器对所述每种模态的特征进行跨模态交互,以生成所述多模态采样数据的特征向量;利用Transformer解码器将文本视觉问答建模为完形填空任务,通过所述完形填空任务对所述特征向量进行文本视觉问答处理,以文本序列的形式生成答案;模型处理文本视觉问答任务。利用本发明,能够极大地激发预训练语言模型的潜能,同时避免它可能带来的语言偏见。
-
公开(公告)号:CN114220086B
公开(公告)日:2025-03-28
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/094 , G06N3/088
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN115879462A
公开(公告)日:2023-03-31
申请号:CN202211233226.7
申请日:2022-10-10
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F40/289 , G06F40/284 , G06V30/40 , G06V30/19 , G06N3/044 , G06N3/08
Abstract: 本发明提供一种无需细粒度检测的场景文本提取方法,首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像;再通过预训练的文本块识别器基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与预测特征相对应的预测文本,通过这种粗粒度检测与多实例识别相结合的框架减轻检测负担,同时利用丰富的上下文信息进行识别,能够通过启发式文本块生成方法依据真实数据集生成的文本块级数据集训练文本块检测器,无需细粒度检测即可实现高精度文本提取。
-
公开(公告)号:CN114220086A
公开(公告)日:2022-03-22
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN113849623B
公开(公告)日:2024-04-09
申请号:CN202111186856.9
申请日:2021-10-12
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/126 , G06F40/30 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。
-
公开(公告)号:CN113849623A
公开(公告)日:2021-12-28
申请号:CN202111186856.9
申请日:2021-10-12
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/126 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。
-
公开(公告)号:CN117523571A
公开(公告)日:2024-02-06
申请号:CN202311298617.1
申请日:2023-10-09
Applicant: 中国科学院信息工程研究所
IPC: G06V30/14 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于对比学习特征增强的场景文字检测方法及装置,该方法包括:构建训练图片集和场景文字检测模型;基于场景文字检测模型对训练图片进行文字检测,并结合标签图,获得文字检测损失;抽取特征融合模块输出的视觉特征图,并基于文字特性进行微调后,结合标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失;根据文字检测损失和对比学习损失进行反向传播,得到训练后的场景文字检测模型;基于训练后的场景文字检测模型获取待检测图片的预测概率图后进行后处理,得到待检测图片中的文字位置。本发明可以在保证推理速度的同时提升检测效果,提高检测精度。
-
公开(公告)号:CN117437501A
公开(公告)日:2024-01-23
申请号:CN202311216027.X
申请日:2023-09-20
Applicant: 中国科学院信息工程研究所
IPC: G06V10/774 , G06V10/764 , G06V10/82 , G06V10/25 , G06V10/40 , G06N3/096 , G06N3/0464 , G06N3/0475 , G06N3/09
Abstract: 本发明提供一种基于伪目标重放与挖掘的增量目标检测方法及装置,所述方法包括:获取一已训练完成的旧模型和若干新训练数据,并用已训练完成的旧模型初始化新模型,以得到原始新模型;结合随机生成的噪声向量、旧类标签与边界框对新训练数据进行增广,得到增广后的新数据;将增广后的新数据输入到原始新模型和旧模型中,通过原始新模型和旧模型分别得到图像级特征、实例级特征和检测结果进行原始新模型的参数更新,以得到新模型;基于新模型,得到待检测数据的目标检测结果。本发明可以减少增量模型在共现和非共现场景下的性能差距。
-
公开(公告)号:CN116863476A
公开(公告)日:2023-10-10
申请号:CN202310733846.5
申请日:2023-06-20
Applicant: 中国科学院信息工程研究所
IPC: G06V30/148 , G06V10/22 , G06V10/54 , G06V30/19
Abstract: 本发明公开一种基于掩模引导的去除印章噪声的图像生成方法及系统,涉及图像文字识别领域,通过印章定位模块生成能够代表印章位置的掩模,避免对非印章区域文字的过度擦除,并保证能够将注意力集中在印章区域;通过提取背景文字的纹理信息,以及通过跳过连接将纹理信息和掩膜一起传递给印章擦除模块,让印章擦除模块在去除印章的同时保留背景文字,确保对印章准确地擦除。本发明能够自动将文档图像中遮挡文字信息并妨碍图像文字识别的印章进行擦除,保留被印章遮挡的背景文字,从而防止或减少印章遮挡对文字识别器的负面影响,进而有助于更准确识别文档图像中的文字。
-
公开(公告)号:CN114913531A
公开(公告)日:2022-08-16
申请号:CN202210492865.9
申请日:2022-05-07
Applicant: 中国科学院信息工程研究所
IPC: G06V30/148 , G06V30/19 , G06V10/82 , G06N3/08 , G06N3/04
Abstract: 本发明公开了一种面向场景文本检测的文本检测器训练方法及文本检测方法。本发明的训练方法包括:1)使用训练数据集对所选文本检测器进行预训练;2)使用预训练获得的文本检测器参数对设定模型UNITS的每一分支进行初始化;其中,所述分支的模型结构与所述文本检测器结构一致;3)根据UNITS中设定的无监督训练策略,使用无标注的真实数据对UNITS进行无监督训练,同时使用训练数据集对UNITS进行有监督训练,更新UNITS的模型参数;4)使用步骤3)最终所得UNITS的模型参数对所述文本检测器初始化,然后使用有标注的目标数据集对初始化后的所述文本检测器进行有监督训练得到最终训练后的文本检测器。
-
-
-
-
-
-
-
-
-