-
公开(公告)号:CN118350464A
公开(公告)日:2024-07-16
申请号:CN202410250372.3
申请日:2024-03-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及人工智能技术领域,提供一种基于任意粒度文本输入的对话式目标定位方法及装置,方法包括:将待定位图像输入视觉编码器提取图像特征,将图像特征投影至词嵌入空间得到图像词向量;对输入文本进行分词化得到分词向量,将分词向量映射至词嵌入空间得到文本词向量;将图像词向量和文本词向量作为图像文本词向量对,将图像文本词向量对输入至大型语言模型得到回答序列;回答序列包括待定位图像中的目标类别和目标位置;大型语言模型是基于样本输入文本、样本待定位图像、样本待定位图像中的标签目标类别和标签目标位置训练得到,利用大规模预训练获得的广泛知识,具备对任意粒度的文本输入进行定位的能力,提高对话式目标定位方法的准确性。
-
公开(公告)号:CN118823383A
公开(公告)日:2024-10-22
申请号:CN202410779961.0
申请日:2024-06-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于图像和文本双指代的高分辨率目标感知方法、装置,包括:获取待识别图像、文本提示词和指代图像,其中,所述文本提示词和所述指代图像用于对所述待识别图像进行目标指代;对所述待识别图像进行图像特征提取处理,得到待识别图像词向量;对所述指代图像进行视觉特征提取处理,得到指代图像词向量;对所述文本提示词进行分词化处理,得到文本词向量;基于所述待识别图像词向量、所述指代图像词向量和所述文本词向量进行预测处理,得到与所述指代图像和所述文本提示词对应的答案。对待识别图像中的物体从图像和文本的双重角度进行指代描述,使得对待处理图像中的目标感知更加精确,进而生成的答案准确率更高。
-