-
公开(公告)号:CN117851883A
公开(公告)日:2024-04-09
申请号:CN202410006211.X
申请日:2024-01-03
Applicant: 之江实验室
IPC: G06F18/241 , G06F18/213 , G06F18/25 , G06F18/27 , G06V10/764 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法,该方法包括:获取多组具有真值标注的图像‑文本数据集;利用图像编码器对数据集中的图像进行特征提取与学习,得到图像模态的特征嵌入;将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列;将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码,再进行自回归机制下的网络微调;将文本图像输入上述训练好的图像编码器与大语言模型当中,通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置,从而完成文本检测与识别任务。本发明实现方法简便,灵活鲁棒,适用范围广。
-
公开(公告)号:CN117851883B
公开(公告)日:2024-08-30
申请号:CN202410006211.X
申请日:2024-01-03
Applicant: 之江实验室
IPC: G06F18/241 , G06F18/213 , G06F18/25 , G06F18/27 , G06V10/764 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法,该方法包括:获取多组具有真值标注的图像‑文本数据集;利用图像编码器对数据集中的图像进行特征提取与学习,得到图像模态的特征嵌入;将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列;将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码,再进行自回归机制下的网络微调;将文本图像输入上述训练好的图像编码器与大语言模型当中,通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置,从而完成文本检测与识别任务。本发明实现方法简便,灵活鲁棒,适用范围广。
-
公开(公告)号:CN118470547A
公开(公告)日:2024-08-09
申请号:CN202410930449.1
申请日:2024-07-11
IPC: G06V20/10 , G06V20/70 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/09 , G06T7/70
Abstract: 本申请提供了水稻穗粒的识别计数方法、装置及电子设备,包括获取水稻穗粒图像,对所述水稻穗粒图像进行标注,确定水稻穗粒中心点位置和水稻穗粒中心点类别;构建水稻穗粒识别计数模型,使用所述水稻穗粒图像、所述水稻穗粒中心点位置和所述水稻穗粒中心点类别对所述水稻穗粒识别计数模型进行训练,得到端到端水稻穗粒识别计数模型;将待测试图像输入所述端到端水稻穗粒识别计数模型,得到对应所述待测试图像的候选点位置坐标。通过融入自适应卷积网络,在表征学习阶段增强与周边局部区域的特征学习,提高模型的识别准确率。通过多分类的网络输出,实现端到端的实粒、秕粒识别和精准的位置估计。
-
-