-
公开(公告)号:CN119314160A
公开(公告)日:2025-01-14
申请号:CN202411846016.4
申请日:2024-12-16
Applicant: 杭州食方科技有限公司 , 北京邮电大学
IPC: G06V20/60 , G06V10/764 , G06V10/26 , G06V10/42 , G06V10/82 , G06N3/0464
Abstract: 本公开的实施例公开了餐盘信息显示方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取各个餐盘对应的餐盘图像;得到各个餐盘实例分割图像;执行以下步骤:将餐盘实例分割图像输入至预先训练好的餐盘识别模型中的特征提取网络;将餐盘特征图输入至餐盘识别模型中的特征处理网络;将餐盘全图特征信息输入至餐盘识别模型中的分类处理网络;确定各个餐盘实例分割图像对应的各个餐盘价值信息;生成餐盘信息;对餐盘信息进行显示。该实施方式可以提高对餐盘图像进行识别的准确性,可以减少计算资源浪费。
-
公开(公告)号:CN119693941B
公开(公告)日:2025-05-16
申请号:CN202510207485.X
申请日:2025-02-25
Applicant: 杭州食方科技有限公司 , 北京邮电大学
IPC: G06V20/68 , G06V10/80 , G06V10/94 , G06F16/58 , G06F16/583
Abstract: 本公开的实施例公开了食物描述信息显示方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:接收食物图像和初始食物描述信息;生成图像特征信息;对图像特征信息进行第一动态位置编码;生成文本特征信息;对文本特征信息进行第二动态位置编码;对图像位置特征信息和文本位置特征信息进行融合;检索表征描述食物特征的特征补充信息;基于多模态融合特征信息和特征补充信息,生成目标食物描述信息;从目标音频数据库中获取目标食物描述信息对应的目标食物音频;将目标食物描述信息和目标食物音频发送至用户终端。该实施方式通过多模态特征信息检索的方式,生成更为精准且全面的目标食物描述信息,能更好地满足用户的需求。
-
公开(公告)号:CN119693941A
公开(公告)日:2025-03-25
申请号:CN202510207485.X
申请日:2025-02-25
Applicant: 杭州食方科技有限公司 , 北京邮电大学
IPC: G06V20/68 , G06V10/80 , G06V10/94 , G06F16/58 , G06F16/583
Abstract: 本公开的实施例公开了食物描述信息显示方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:接收食物图像和初始食物描述信息;生成图像特征信息;对图像特征信息进行第一动态位置编码;生成文本特征信息;对文本特征信息进行第二动态位置编码;对图像位置特征信息和文本位置特征信息进行融合;检索表征描述食物特征的特征补充信息;基于多模态融合特征信息和特征补充信息,生成目标食物描述信息;从目标音频数据库中获取目标食物描述信息对应的目标食物音频;将目标食物描述信息和目标食物音频发送至用户终端。该实施方式通过多模态特征信息检索的方式,生成更为精准且全面的目标食物描述信息,能更好地满足用户的需求。
-
公开(公告)号:CN119379652A
公开(公告)日:2025-01-28
申请号:CN202411511389.6
申请日:2024-10-28
Applicant: 北京邮电大学
IPC: G06T7/00 , G06N3/0442 , G06N3/042 , G06N3/08
Abstract: 本发明公开了一种基于视觉大模型的重量估计方法,包括:获取多模态重量数据集,构建视觉语言模型,基于所述多模态重量数据集对所述视觉语言模型进行两个阶段的训练;基于所述多模态重量数据集获得微调数据集;基于微调数据集、类别引导策略和参考校准策略对完成第二阶段训练的视觉语言模型获得重量估计模型;基于重量估计模型与待评估的物体图像进行重量估计。本发明通过类别引导策略和参考校准策略有效提升了视觉大模型的重量估计精度和重量推理能力。
-
-
-